[发明专利]一种基于词向量技术和知识图谱检索的短文本问答方法及装置在审

专利信息
申请号: 201910438018.2 申请日: 2019-05-20
公开(公告)号: CN112052311A 公开(公告)日: 2020-12-08
发明(设计)人: 王嫄;徐涛;胡文帅;吴帅;丁文强;赵婷婷;孔娜 申请(专利权)人: 天津科技大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/36;G06F40/295
代理公司: 暂无信息 代理人: 暂无信息
地址: 300456 天津市经济技术*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 向量 技术 知识 图谱 检索 文本 问答 方法 装置
【说明书】:

发明涉及一种基于词向量技术和知识图谱检索的短文本问答方法及装置,包括:对输入的自然语言短文本问题进行分词,得到分词后的文本;对该文本进行命名实体识别和词性标注,识别出实体以及关键词;知识图谱检索实体返回其对应的全部属性并与关键词一同进行向量化;对全部向量进行余弦相似度计算,找出与关键词最为相近的某属性,并进行替换;组成三元组进行知识图谱的检索,并输出答案。如何快速准确的在知识图谱中进行短文本问题答案的检索是实际应用中的关键问题,本发明提出一种基于词向量技术和知识图谱检索的短文本问答方法及装置,该方法基于词向量技术,使得生成的三元组更加精确,从而提高在知识图谱中进行问题答案检索的效率。

技术领域

本发明涉及自然语言处理领域,更具体说是涉及一种基于词向量技术和知识图谱检索的短文本问答方法及装置。

背景技术

人工智能近年来的发展迅速,特别是在深度学习等方面有了极大的进展,目前在感知研究方向的研究已经取得了不错的成果,而下一个十年,人工智能的突破在于自然语言的理解,自然语言处理成为当前备受关注的研究热点。迄今为止,自然语言处理和知识图谱之间的结合已被成功应用到诸多领域:如机器翻译、文本分类、垃圾邮件过滤、信息提取、自动摘要、对话系统、医疗、问答系统等。

自然语言处理和知识图谱的紧密结合中,其中重要的应用就是问答系统。面对问答系统,从分词、实体识别等技术对问题进行精准提取到知识图谱的精确检索,国内如北京大学语言计算与机器学习研究组所设计的多领域中文分词工具包pkuseg对于中文预料的分词测试平均结果可达91.29,国外如经典的自然语言处理工具NLTK的应用也是极为广泛。上述任务是自然语言处理中的一些手段,分析其任务本质发现它们的处理目标即为了使其在知识图谱中的检索更加精确。然而,对于实际应用中的复杂的智能问答系统来说,仅仅通过分词、实体识别等技术对短文本问题进行处理后所得到的三元组,往往与知识图谱所实际需要的三元组是不匹配的。可见,通过词向量技术使问题关键词与实际知识图谱中实体所对应的属性进行匹配是实际应用中的一个重要问题。

因此,本发明提出一种基于词向量技术和知识图谱检索的短文本问答方法及装置,通过引入词向量技术,来更加精确的生成三元组进行知识图谱的问答检索。

发明内容

为了让计算机快速、准确地识别出短文本问题中的关键字句,通常通过分词工具、命名实体识别工具对输入的短文本问题进行初步的自然语言处理,从而能够快速输出一些简单的短文本问题的答案。为了提高对于短文本问答方法的准确度,同时提高答案输出的效率,对于短文本问题的进一步处理是至关重要的过程。

本发明实施例公开了一种基于词向量技术和知识图谱检索的短文本问答方法及装置,主要包括:自然语言处理、词向量化、知识图谱检索。

具体过程为:

步骤1:对输入的自然语言短文本问题进行分词,得到分词后的文本。

步骤2:从步骤1中得到的分词后的文本,对该文本进行命名实体识别和词性标注,识别出实体以及关键词。

步骤3:从步骤2中获得的实体,将该实体放入三元组中进行知识图谱检索提取,得到该实体对应的全部属性。

步骤4:从步骤3中获得的实体对应的全部属性,将其与步骤2中获得的关键词,均进行向量化操作,得到全部属性和关键词的向量。

步骤5:从步骤4中获得的全部属性和关键词的向量,对其进行余弦相似度计算,找出与关键词最为相近的某属性,将该属性与关键词进行替换,得到被替换后的属性。

步骤6:从步骤5中获得的被替换后的属性与从步骤2中获得的实体,将两者组成三元组的形式,即实体-属性对。

步骤7:从步骤6中获得的实体-属性对即三元组,将该三元组输入至知识图谱检索工具,从而获得自然语言短文本问题的答案。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910438018.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top