[发明专利]文本间的语义相似性比较方法、设备及计算机存储介质有效
| 申请号: | 201910749686.7 | 申请日: | 2019-08-14 |
| 公开(公告)号: | CN110516040B | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 祝文博;雷欣;李志飞 | 申请(专利权)人: | 出门问问(武汉)信息科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06F40/289;G06K9/62 |
| 代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 江宇 |
| 地址: | 430223 湖北省武汉市东湖新技术*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 语义 相似性 比较 方法 设备 计算机 存储 介质 | ||
本发明公开了一种文本间的语义相似性比较方法、设备及计算机存储介质,包括:确定第一文本和第二文本;分别对所述第一文本和第二文本进行分词处理,得到对应的第一分词处理结果和第二分词处理结果;将所述第一分词处理结果和第二分词处理结果进行向量转换,得到对应的第一词向量和第二词向量;分别将所述第一词向量和第二词向量映射到高维空间,得到对应的第一映射向量和第二映射向量;对所述第一映射向量和第二映射向量进行相似性比较,得到用于表征第一文本与第二文本之间语义相似性的比较结果。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本间的语义相似性比较方法、设备及计算机存储介质。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。在自然语言处理过程中,计算文本间相似度是文本处理的基础运算,作为前置运算的文本相似度的精度直接影响着最终运算的结果。
文本作为一种非结构化数据,在计算处理时通常被理解为无限维度的对象,所以在计算文本间相似度之前,需要进行结构化的降维处理。对于文本降维,目前常用的降维方式有根据词频统计进行降维和根据词的重要程度值进行降维。但是在文本的降维比较过程中,比较结果的精确度并不理想。
发明内容
本发明提供一种文本间的语义相似性比较方法、设备及计算机存储介质,能够提高文本间语义相似性比较结果的精度。
本发明一方面提供一种文本间的语义相似性比较方法,包括:确定第一文本和第二文本;分别对所述第一文本和第二文本进行分词处理,得到对应的第一分词处理结果和第二分词处理结果;将所述第一分词处理结果和第二分词处理结果进行向量转换,得到对应的第一词向量和第二词向量;分别将所述第一词向量和第二词向量映射到高维空间,得到对应的第一映射向量和第二映射向量;对所述第一映射向量和第二映射向量进行相似性比较,得到用于表征所述第一文本与第二文本之间语义相似性的比较结果。
在一种可实施方式中,将所述第一分词处理结果和第二分词处理结果进行向量转换,包括:利用分词与词频逆文档频率的TF-IDF值之间的对应关系,将所述第一分词处理结果和第二分词处理结果进行向量转换。
在一种可实施方式中,所述分别将所述第一词向量和第二词向量映射到高维空间,包括:确定所述第一文本和第二文本的文本内容对应的目标领域;获得对应所述目标领域的语料样本;通过所述目标领域的语料样本训练模型,得到对应所述目标领域的映射模型;利用所述目标领域的映射模型将所述第一词向量和第二词向量映射到高维空间。
在一种可实施方式中,所述方法还包括:通过所述目标领域的语料样本计算所述映射模型的损失函数;利用所述损失函数的计算结果更新所述映射模型。
在一种可实施方式中,所述比较结果为相似度比较结果;相应的,所述对所述第一映射向量和第二映射向量进行相似性比较,包括:在所述高维空间计算所述第一映射向量和第二映射向量的夹角余弦值,通过所述夹角余弦值对应所述相似度比较结果。
本发明另一方面提供一种文本间的语义相似性比较设备,包括:确定模块,用于确定第一文本和第二文本;分词模块,用于分别对所述第一文本和第二文本进行分词处理,得到对应的第一分词处理结果和第二分词处理结果;转换模块,用于将所述第一分词处理结果和第二分词处理结果进行向量转换,得到对应的第一词向量和第二词向量;映射模块,用于分别将所述第一词向量和第二词向量映射到高维空间,得到对应的第一映射向量和第二映射向量;比较模块,用于对所述第一映射向量和第二映射向量进行相似性比较,得到用于表征所述第一文本与第二文本之间语义相似性的比较结果。
在一种可实施方式中,所述分词模块具体用于:利用分词与词频逆文档频率的TF-IDF值之间的对应关系,将所述第一分词处理结果和第二分词处理结果进行向量转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问(武汉)信息科技有限公司,未经出门问问(武汉)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910749686.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用户手册中信息的检索方法及装置
- 下一篇:一种人机对话系统的文本分类方法





