[发明专利]用于实体关联的方法、装置、设备和介质有效
| 申请号: | 201910108781.9 | 申请日: | 2019-02-03 |
| 公开(公告)号: | CN109933785B | 公开(公告)日: | 2023-06-20 |
| 发明(设计)人: | 汪琦;冯知凡;任可欣;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06N3/0464 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;罗利娜 |
| 地址: | 100094 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 实体 关联 方法 装置 设备 介质 | ||
1.一种实体关联的方法,包括:
从预定义的知识库确定输入文本中的文本项的候选实体,所述候选实体的指称项与所述文本项匹配;
获取描述所述候选实体的实体文本;
确定所述输入文本与所述实体文本之间的语义相似度;以及
基于所述语义相似度来确定所述文本项与所述候选实体关联的概率;
从所述知识库确定针对所述文本项的另一候选实体,所述另一候选实体的指称项与所述文本项匹配;
确定所述文本项与所述另一候选实体关联的另一概率,所述概率大于所述另一概率;
基于所述概率和所述另一概率来确定概率相关特征,其中所述概率相关特征包括与所述概率和所述另一概率相关的统计特征;以及
基于所述实体文本、所述输入文本以及所述概率相关特征,确定所述概率的置信度,所述置信度用于确定是否将所述候选实体标记为所述文本项被关联到的目标实体。
2.根据权利要求1所述的方法,其中所述实体文本包括以下至少一项:所述候选实体的摘要信息、所述候选实体的属性信息以及已关联到所述候选实体的另一文本项所处的上下文内容。
3.根据权利要求1所述的方法,其中确定所述语义相似度包括:
基于文本项与向量表示之间的预定映射关系,将所述输入文本和所述实体文本分别映射到第一文本向量表示和第二文本向量表示;
从所述第一文本向量表示和所述第二文本向量表示提取所述输入文本的第一语义特征和所述实体文本的第二语义特征;以及
基于所述第一语义特征和所述第二语义特征来确定所述语义相似度。
4.根据权利要求3所述的方法,其中确定所述语义相似度还包括:
还基于以下至少一项来确定所述语义相似度:
所述候选实体对应的实体向量表示,所述实体向量表示基于实体与向量表示之间的预定映射关系来确定,与所述候选实体相关的实体属性信息,所述实体属性信息包括所述候选实体的类型、热度和贡献度中的至少一项,与所述实体文本相关的文本属性信息,所述文本属性信息包括以下至少一项:所述实体文本中的文本项的词性,以及所述实体文本中的文本项的位置信息,以及
与所述输入文本相关的文本属性信息,所述文本属性信息包括以下至少一项:所述输入文本中的文本项的词性,以及所述输入文本中的文本项的位置信息。
5.根据权利要求3所述的方法,其中提取所述第一语义特征和所述第二语义特征包括:
利用第一特征提取模块,从所述第一文本向量表示提取所述第一语义特征;以及
利用第二特征提取模块,从所述第二文本向量表示提取所述第二语义特征,所述第一特征提取模块与所述第二特征提取模块不同。
6.一种用于实体关联的装置,包括:
候选确定模块,被配置为从预定义的知识库确定输入文本中的文本项的候选实体,所述候选实体的指称项与所述文本项匹配;
实体文本获取模块,被配置为获取描述所述候选实体的实体文本;
相似度确定模块,被配置为确定所述输入文本与所述实体文本之间的语义相似度;以及
关联概率确定模块,被配置为基于所述语义相似度来确定所述文本项与所述候选实体关联的概率。
7.根据权利要求6所述的装置,其中所述实体文本包括以下至少一项:所述候选实体的摘要信息、所述候选实体的属性信息以及已关联到所述候选实体的另一文本项所处的上下文内容。
8.根据权利要求6所述的装置,其中所述相似度确定模块,包括:
向量化模块,被配置为基于文本项与向量表示之间的预定映射关系,将所述输入文本和所述实体文本分别映射到第一文本向量表示和第二文本向量表示;
特征提取模块,被配置为从所述第一文本向量表示和所述第二文本向量表示提取所述输入文本的第一语义特征和所述实体文本的第二语义特征;以及
基于特征的相似度确定模块,被配置为基于所述第一语义特征和所述第二语义特征来确定所述语义相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910108781.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本识别方法和装置
- 下一篇:基于编译规则的应答器报文工具的构建方法





