[发明专利]面向资源缺乏语言的实体链接系统有效
| 申请号: | 201510304943.8 | 申请日: | 2015-06-04 | 
| 公开(公告)号: | CN104933039B | 公开(公告)日: | 2018-03-20 | 
| 发明(设计)人: | 蒋同海;李晓;马博;王磊;周喜;赵凡;杨雅婷 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 | 
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 | 
| 代理公司: | 乌鲁木齐中科新兴专利事务所65106 | 代理人: | 张莉 | 
| 地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 面向 资源 缺乏 语言 实体 链接 系统 | ||
1.一种面向资源缺乏语言的实体链接系统,其特征在于该系统面向新疆地区的少数民族语言——维吾尔语,通过规则和统计相结合的方法,利用汉语的丰富语言资源对维吾尔语进行语义扩充,完成实体链接,具体操作按下列步骤进行:
a.实体指称项获取模块:识别出文本中待链接到实体库的实体指称项;
b.维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标注为标明该词汇的词性;
c. 实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实体指称项的上下文信息,其中实体指称项的上下文为实体指称项前后指定长度的文本,对实体指称项的上下文进行扩充是利用词向量模型和维基百科标签对其上下文进行扩充;
d.候选实体获取模块:通过机器翻译的双语对齐,实现汉语和维吾尔语词汇的对齐操作,利用汉语的丰富语义对维吾尔语进行扩充,扩充后的文本组成实体库中实体的上下文信息,将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算,获取候选实体;
e.候选实体排序模块:通过融合实体上下文特征、篇章主题特征和知识库中概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体即可,其中实体上下文特征是实体指称项的上下文特征与候选实体的知名度特征、名称特征的概率乘积;实体篇章主题特征是在基于统计的主题模型中,实体指称项所包含的主题与候选实体包含的主题之间的相似程度;实体概念图特征是在以维基百科为基础的知识网络中,基于语义相似度、共现度计算得到的实体指称项和候选实体相似程度。
2.根据权利要求1所述的面向资源缺乏语言的实体链接系统,其特征在于步骤b中所述的基于规则和统计的相结合词性标注方法:是根据维吾尔语词后缀的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用最大熵统计方法和条件随机场统计方法对词性做出一个粗略的判断,然后利用总结出的规则,对使用统计得到的词性标注结果进行验证。
3.根据权利要求1所述的面向资源缺乏语言的实体链接系统,其特征在于步骤c中词向量的上下文扩充是使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,采用二次抽样的方法来平衡训练语料中的频繁词汇和非频繁词汇的不对称,将训练文本集合内的每个词汇表示成为200维的特征向量,通过度量向量之间的余弦相似度,获取词汇间的语义关联,并将语义最为近似的词汇作为实体指称项的上下文。
4.根据权利要求1所述的面向资源缺乏语言的实体链接系统,其特征在于步骤c中维基百科标签的上下文扩充是使用维基百科标签作为中间媒介,计算实体指称项上下文和所有维基百科标签上下文的余弦相似度,并从结果中选取相似性最高的一个子集,将相似性最高的标签作为实体指称项的上下文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510304943.8/1.html,转载请声明来源钻瓜专利网。





