[发明专利]基于歧义实体词的文本处理方法和装置有效
申请号: | 201810044364.8 | 申请日: | 2018-01-17 |
公开(公告)号: | CN108280061B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 冯知凡;陆超;朱勇;李莹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/247;G06N3/08;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 歧义 实体词 文本 处理 方法 装置 | ||
本发明提出一种基于歧义实体词的文本处理方法和装置,其中,方法包括:获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,通过训练的词向量模型生成上下文的语义向量,通过训练的无监督神经网络模型,生成至少两个候选实体的第一实体向量,计算上下文与每一个候选实体之间的相似度,确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体文本语义以及各实体之间关系的无监督神经网络模型,使得生成的候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,使得待消歧文本的实体信息得以完整刻画,再与上下文语义向量计算相似度,确定目标实体,提高了待消歧文本消歧的准确度。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于歧义实体词的文本处理方法和装置。
背景技术
随着移动互联网的普及,微博、贴吧及各大新闻网站等极大的方便了人们的生活,但这些平台上的数据绝大部分都是以非结构化或半结构化的形式存在,导致这些知识库中的数据存在着大量的歧义实体词,通过对歧义实体词进行消歧处理,可以辨别在不同上下文中该实体词真实指示哪个事物,为后续的具体应用提供便利。
但相关技术中,一种方式可以利用现有知识库数据,计算文本重叠度和相关度,进行消歧;另一种方式利用现有知识库数据,进行无监督或半监督的模型训练,依据语义对歧义实体词进行消歧。但这两种方式,消歧效果较差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于歧义实体词的文本处理方法,训练完成的无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系,通过无进度神经网络模型对候选实体进行处理,生成第一实体向量,使得第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,使得实体信息刻画较完整,再将第一实体向量和上下文语义向量计算相似度,确定目标实体,提高了待消歧文本消歧的准确度。
本发明的第二个目的在于提出一种基于歧义实体词的文本处理装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于歧义实体词的文本处理方法,包括:
获取待消歧文本的上下文,以及所述待消歧文本表征的至少两个候选实体;其中,所述至少两个候选实体具有不同语义;
根据经过训练的词向量模型,生成所述上下文的语义向量;
根据经过训练的无监督神经网络模型,生成所述至少两个候选实体的第一实体向量;其中,所述无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系;
根据所述上下文的语义向量和所述至少两个候选实体的第一实体向量,确定所述上下文与每一个候选实体之间的相似度;
根据所述上下文与每一个候选实体之间的相似度,从至少两个候选实体中,确定出所述待消歧文本在所述上下文中所表征的目标实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810044364.8/2.html,转载请声明来源钻瓜专利网。