[发明专利]一种基于知识图谱的简单问答中实体链接的改进方法有效
| 申请号: | 201911131171.7 | 申请日: | 2019-11-19 |
| 公开(公告)号: | CN110909174B | 公开(公告)日: | 2022-01-04 |
| 发明(设计)人: | 陈凯 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F16/33 |
| 代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 李珍 |
| 地址: | 211106 江苏省南京市江宁区*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识 图谱 简单 问答 实体 链接 改进 方法 | ||
本发明公开了一种基于知识图谱的简单问答中实体链接的改进方法,属于自然语言处理技术领域,建立中心服务器和问题输入客户端,在中心服务器中建立实体检测模块、实体候选集模块、知识图谱检索模块、实体匹配模块,对问题数据进行检测,建立实体候选集,对问题数据进行编码,对实体候选集中的实体进行三个层次编码,从实体候选集中选出与问题数据匹配分数最高的n个实体,采用了一种独特的对问题编码的方式,本发明提出了三个层次对实体进行编码的方法,充分利用了实体的类型信息与姓名信息,结合对问题的编码方式,可以有效解决实体混淆和OOV问题。
技术领域
本发明属于大数据技术领域,涉及一种基于知识图谱的简单问答中实体链接的改进方法。
背景技术
近年来,出现了越来越多的包含大量事实的开源知识图谱(KG),如FreeBase、Yago和DBpedia。以知识图为答案来源的问答(KG-QA)是近年来研究的热点。知识图谱的存储主要有两种方式:基于RDF的存储,基于图数据库的存储。
传统的KG-QA方法可分为三大类KG-QA。第一类是语义解析:该方法是一种偏linguistic的方法,主体思想是将自然语言转化为一系列形式化的逻辑形式,通过对逻辑形式进行自底向上的解析,得到一种可以表达整个问题语义的逻辑形式,通过相应的查询语句(类似lambda-Caculus)在知识库中进行查询,从而得出答案。第二类是信息抽取(Information Extraction):该类方法通过提取问题中的实体,通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图,子图中的每一个节点或边都可以作为候选答案,通过观察问题依据某些规则或模板进行信息抽取,得到问题特征向量,建立分类器通过输入问题特征向量对候选答案进行筛选,从而得出最终答案。第三类是向量建模(VectorModeling):该方法思想和信息抽取的思想比较接近,根据问题得出候选答案,把问题和候选答案都映射为分布式表达(Distributed Embedding),通过训练数据对该分布式表达进行训练,使得问题和正确答案的向量表达的得分(通常以点乘为形式)尽量高。
一般情况下,基于知识图谱的简单问答(kG-Simpleqa)涉及到两个关键子任务:(1)实体链接。实体链接的目的是检测问题中提到的实体并将它们链接到KG中;(2)关系预测,该子任务识别该问题所问的在知识图谱中关于实体的关系。例如,问题whichlanguage is skope magazine written in?,需要找到知识图谱中的实体在问题中的表达:skope magazine,将其链接到知识图谱中对应的实体m.03cl4nk,以及该问题中询问的关于该实体的关系:book/periodical/language。
实体链接存在一些尚未解决的问题,即实体歧义问题和OOV(问题中的实体无法在预训练词向量模型中找到相应的向量表达)问题。实体歧义问题这意味着在知识图谱中不同的实体区有着相同的姓名,这为如何将问题中的实体链接到知识图谱中正确的实体造成了巨大阻碍。例如在上面的示例中,该问题所涉及到的实体是apple,但在知识图谱中存在许多名称为apple的实体,这就产生了实体混淆问题。为了解决实体混淆和OOV问题,一些以往的工作已经提出了些模型。Lukovnikov.等人在对问题进行向量化时,引入了问题中每个单词的character-level编码,与word-level编码结合,作为问题的向量表示,很好的解决了OOV问题,但由于涉及到OOV的单词92.9%都是实体或实体中的一部分,如果使用character-level编码就会丧失该实体的语义,这在实体链接中是不小的信息损失;Dai.等人为了解决实体混淆的问题,对实体的类型信息进行编码作为该实体的向量表达。该类型向量的每个维度为1或0,表示该实体是否与特定类型相关联,所以向量的维度就是知识图谱中实体类型的数目。这种方法可以对实体混淆问题有着很好的效果,但没有考虑实体本身的一些信息。Yin W.等人在实体链接对问题进行编码时,将问题中每个单词的character-level编码与word-level编码连接在一起作为问题的编码,在对实体进行编码时,综合考虑实体姓名的character-level与实体类型的word-level编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911131171.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能气动式起倒靶系统
- 下一篇:车牌检测方法、系统、平台和存储介质





