[发明专利]一种实体挖掘方法及装置,电子设备有效
申请号: | 201711243198.6 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108228712B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 陈健锋;曾轲;张艳霞;李容;张倩;蔡勋梁 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 挖掘 候选实体 字典 语料 可移植性 申请 计算机技术领域 电子设备 规则模板 人为因素 转移概率 更新 标注 | ||
本申请提供了一种实体挖掘方法,属于计算机技术领域,解决现有技术中的实体挖掘方法存在的效率低、可靠性差、可移植性差的问题。本申请实施例公开的实体挖掘方法,包括:获取候选后缀字,并将包含在待挖掘语料中的所述候选后缀字生成候选实体字典;根据所述候选实体字典中各候选后缀字和左邻字的转移概率,更新所述候选实体字典;根据更新后的所述候选实体字典中候选实体在所述待挖掘语料中的出现次数,确定所述待挖掘语料中的实体。本申请公开的实体挖掘方法不需要人工对语料进行标注、不需要设置规则模板,因此,避免了人为因素导致的可靠性差的缺陷,同时,进一步提升了实体挖掘的效率,并且可移植性更强。
技术领域
本申请涉及计算机技术领域,特别是涉及一种实体挖掘方法及装置,电子设备。
背景技术
“实体”是个双语词汇,可以用于表示不同的事物,如人、物体、地点、食物、动作等,实体挖掘技术有着重要的作用。例如,通过挖掘描述文本等语料中的实体,以生成对事物的描述摘要,或提取相关事物的特征。现有技术中,在开放文本中进行实体挖掘时,大多依赖于规则模板,通过将开放文本与规则模板进行匹配,来挖掘所述开放文本中的实体。通过规则模板挖掘实体的方法需要大量人工进行语料标注,并且需要人类专家对不同领域模式进行总结提炼并确定种子实体和模板,挖掘实体效率较低,另一方面,构建模板依赖人为因素,效果不稳定;并且,构建的模板具有领域特性,很难推广到具有不同语料的不同领域。
可见,现有技术中的实体挖掘方法至少存在效率低下、稳定性差、可移植性差的缺陷。
发明内容
本申请提供一种实体挖掘方法,解决现有技术中存在的上述至少一个问题。
为了解决上述问题,第一方面,本申请实施例提供了一种实体挖掘方法包括:
获取候选后缀字;
根据待挖掘语料中包括的所述候选后缀字,构建候选实体字典;
根据所述候选实体字典中各候选后缀字和左邻字的转移概率,更新所述候选实体字典;
根据更新后的所述候选实体字典中候选实体在所述待挖掘语料中的出现次数,确定所述待挖掘语料中的实体。
第二方面,本申请实施例提供了一种实体挖掘装置,包括:
候选后缀字获取模块,用于获取候选后缀字;
候选实体字典构建模块,用于根据待挖掘语料中包括的所述候选后缀字,构建候选实体字典;
候选实体字典更新模块,用于根据所述候选实体字典中各候选后缀字和左邻字的转移概率,更新所述候选实体字典;
实体确定模块,用于根据更新后的所述候选实体字典中候选实体在所述待挖掘语料中的出现次数,确定所述待挖掘语料中的实体。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的实体挖掘方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的实体挖掘方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711243198.6/2.html,转载请声明来源钻瓜专利网。