[发明专利]面向资源缺乏语言的实体链接系统有效
| 申请号: | 201510304943.8 | 申请日: | 2015-06-04 | 
| 公开(公告)号: | CN104933039B | 公开(公告)日: | 2018-03-20 | 
| 发明(设计)人: | 蒋同海;李晓;马博;王磊;周喜;赵凡;杨雅婷 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 | 
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 | 
| 代理公司: | 乌鲁木齐中科新兴专利事务所65106 | 代理人: | 张莉 | 
| 地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | 本发明涉及一种面向资源缺乏语言的实体链接系统,该系统采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干切分和词性标注;根据实体指称项的上下文,对实体指称项进行扩充,通过机器翻译的双语对齐技术,实现汉语和维吾尔语词汇的对齐操作,从而利用汉语的丰富语义对维吾尔语进行扩充,获取候选实体;通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体。通过本发明所述的系统解决资源缺乏语言的实体链接问题并构建实用化的维吾尔语实体链接系统。该系统能够实现语言资源缺乏的维吾尔语的实体链接功能,从而满足智能信息处理需求。 | ||
| 搜索关键词: | 面向 资源 缺乏 语言 实体 链接 系统 | ||
【主权项】:
                一种面向资源缺乏语言的实体链接系统,其特征在于该系统面向新疆地区的少数民族语言——维吾尔语,通过规则和统计相结合的方法,利用汉语的丰富语言资源对维吾尔语进行语义扩充,完成实体链接,具体操作按下列步骤进行:a.实体指称项获取模块:识别出文本中待链接到实体库的实体指称项;b.维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标注为标明该词汇的词性;c. 实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实体指称项的上下文信息,其中实体指称项的上下文为实体指称项前后指定长度的文本,对实体指称项的上下文进行扩充是利用词向量模型和维基百科标签对其上下文进行扩充;d.候选实体获取模块:通过机器翻译的双语对齐,实现汉语和维吾尔语词汇的对齐操作,利用汉语的丰富语义对维吾尔语进行扩充,扩充后的文本组成实体库中实体的上下文信息,将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算,获取候选实体;e.候选实体排序模块:通过融合实体上下文特征、篇章主题特征和知识库中概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体即可,其中实体上下文特征是实体指称项的上下文特征与候选实体的知名度特征、名称特征的概率乘积;实体篇章主题特征是在基于统计的主题模型中,实体指称项所包含的主题与候选实体包含的主题之间的相似程度;实体概念图特征是在以维基百科为基础的知识网络中,基于语义相似度、共现度计算得到的实体指称项和候选实体相似程度。
            
                    下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
                
                
            该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510304943.8/,转载请声明来源钻瓜专利网。





