[发明专利]一种实体挖掘方法及装置,电子设备有效
申请号: | 201711243198.6 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108228712B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 陈健锋;曾轲;张艳霞;李容;张倩;蔡勋梁 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 挖掘 候选实体 字典 语料 可移植性 申请 计算机技术领域 电子设备 规则模板 人为因素 转移概率 更新 标注 | ||
1.一种实体挖掘方法,其特征在于,包括:
获取候选后缀字;
根据待挖掘语料中包括的所述候选后缀字,构建候选实体字典;
根据所述候选实体字典中各候选后缀字和左邻字的转移概率,更新所述候选实体字典;
根据更新后的所述候选实体字典中候选实体在所述待挖掘语料中的出现次数,确定所述待挖掘语料中的实体;
其中,所述根据所述候选实体字典中各候选后缀字和左邻字的转移概率,更新所述候选实体字典,包括:
确定所述候选实体字典中各候选后缀字和左邻字的转移概率;其中,所述左邻字为所述候选实体字典中所有候选后缀字在所述待挖掘语料中的左邻字;
如果存在符合预设条件的转移概率,则根据所述转移概率更新所述候选实体字典,并重复执行根据所述转移概率更新所述候选实体字典的操作,直至先后两次更新后的候选实体字典相同。
2.根据权利要求1所述的方法,其特征在于,所述确定所述候选实体字典中各候选后缀字和左邻字的转移概率的步骤,包括:
以所述候选实体字典中每个候选后缀字作为行索引,以各候选后缀字在所述待挖掘语料中的所有左邻字作为列索引,构建共现矩阵;
根据所述共现矩阵,构建转移概率矩阵;
其中,所述共现矩阵的第i行第j列的元素为第i行的行索引对应的候选后缀字和第j列的列索引对应的左邻字构成的组合词在所述待挖掘语料中的出现次数;所述转移概率矩阵的行索引和列索引分别与所述共现矩阵的行索引和列索引相同,所述转移概率矩阵第i行第j列的元素为第i行的行索引对应的候选后缀字左接第j列的列索引对应的左邻字的概率;所述转移概率矩阵第i行各列的元素取值之和为1;i和j为自然数。
3.根据权利要求1所述的方法,其特征在于,所述当存在符合预设条件的转移概率时,根据所述转移概率更新所述候选实体字典的步骤,包括:
当所述转移概率大于等于预设第一概率阈值时,通过所述转移概率对应的候选实体替换所述候选实体字典中与该转移概率对应的候选后缀字;
当所述转移概率大于等于预设第二概率阈值,且小于所述预设第一概率阈值时,若所述候选实体字典中不包括所述转移概率对应的候选实体,则将所述转移概率对应的候选实体加入所述候选实体字典中;其中,所述预设第一概率阈值大于所述预设第二概率阈值;所述转移概率对应的候选实体为所述转移概率对应的候选后缀字和左邻字所构成的组合词。
4.根据权利要求3所述的方法,其特征在于,所述第一概率阈值取值为大于等于0.92小于等于0.99;所述预设第二概率阈值取值为大于等于0.08小于等于0.15。
5.根据权利要求1至4任一项所述的方法,其特征在于,根据更新后的所述候选实体字典中候选实体在所述待挖掘语料中的出现次数,确定所述待挖掘语料中的实体,包括:
确定更新后的所述候选实体字典中候选实体在所述待挖掘语料中的出现次数;
确定所述出现次数大于预设次数阈值的候选实体,作为挖掘的实体。
6.根据权利要求1至4任一项所述的方法,其特征在于,根据待挖掘语料中包括的所述候选后缀字,构建候选实体字典的步骤之前,还包括:
通过空格替换所述待挖掘语料中所有非汉字、非数字、非英文字母的字符;
将连续两个或以上空格,缩减至一个空格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711243198.6/1.html,转载请声明来源钻瓜专利网。