[发明专利]文本间的语义相似性比较方法、设备及计算机存储介质有效
| 申请号: | 201910749686.7 | 申请日: | 2019-08-14 |
| 公开(公告)号: | CN110516040B | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 祝文博;雷欣;李志飞 | 申请(专利权)人: | 出门问问(武汉)信息科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06F40/289;G06K9/62 |
| 代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 江宇 |
| 地址: | 430223 湖北省武汉市东湖新技术*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 语义 相似性 比较 方法 设备 计算机 存储 介质 | ||
1.一种文本间的语义相似性比较方法,其特征在于,包括:
确定第一文本和第二文本;
分别对所述第一文本和第二文本进行分词处理,得到对应的第一分词处理结果和第二分词处理结果;
将所述第一分词处理结果和第二分词处理结果进行向量转换,得到对应的第一词向量和第二词向量;
分别将所述第一词向量和第二词向量映射到高维空间,得到对应的第一映射向量和第二映射向量;
对所述第一映射向量和第二映射向量进行相似性比较,得到用于表征所述第一文本与第二文本之间语义相似性的比较结果;
所述分别将所述第一词向量和第二词向量映射到高维空间,包括:
确定所述第一文本和第二文本的文本内容对应的目标领域;
获得对应所述目标领域的语料样本;
通过所述目标领域的语料样本训练模型,得到对应所述目标领域的映射模型;
利用所述目标领域的映射模型将所述第一词向量和第二词向量映射到高维空间。
2.根据权利要求1所述的方法,其特征在于,将所述第一分词处理结果和第二分词处理结果进行向量转换,包括:
利用分词与词频逆文档频率的TF-IDF值之间的对应关系,将所述第一分词处理结果和第二分词处理结果进行向量转换。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过所述目标领域的语料样本计算所述映射模型的损失函数;
利用所述损失函数的计算结果更新所述映射模型。
4.根据权利要求1所述的方法,其特征在于,所述比较结果为相似度比较结果;
相应的,所述对所述第一映射向量和第二映射向量进行相似性比较,包括:在所述高维空间计算所述第一映射向量和第二映射向量的夹角余弦值,通过所述夹角余弦值对应所述相似度比较结果。
5.一种文本间的语义相似性比较设备,其特征在于,包括:
确定模块,用于确定第一文本和第二文本;
分词模块,用于分别对所述第一文本和第二文本进行分词处理,得到对应的第一分词处理结果和第二分词处理结果;
转换模块,用于将所述第一分词处理结果和第二分词处理结果进行向量转换,得到对应的第一词向量和第二词向量;
映射模块,用于分别将所述第一词向量和第二词向量映射到高维空间,得到对应的第一映射向量和第二映射向量;
比较模块,用于对所述第一映射向量和第二映射向量进行相似性比较,得到用于表征所述第一文本与第二文本之间语义相似性的比较结果;
所述映射模块包括:
确定子模块,用于确定所述第一文本和第二文本的文本内容对应的目标领域;
获得子模块,用于获得对应所述目标领域的语料样本;
训练子模块,用于通过所述目标领域的语料样本训练模型,得到对应所述目标领域的映射模型;
映射子模块,用于利用所述目标领域的映射模型将所述第一词向量和第二词向量映射到高维空间。
6.根据权利要求5所述的设备,其特征在于,所述分词模块具体用于:利用分词与词频逆文档频率的TF-IDF值之间的对应关系,将所述第一分词处理结果和第二分词处理结果进行向量转换。
7.根据权利要求5所述的设备,其特征在于,所述设备还包括:
计算模块,用于通过所述目标领域的语料样本计算所述映射模型的损失函数;
更新模块,用于利用所述损失函数的计算结果更新所述映射模型。
8.一种计算机存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行权利要求1-4
任一项所述文本间的语义相似性比较方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问(武汉)信息科技有限公司,未经出门问问(武汉)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910749686.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用户手册中信息的检索方法及装置
- 下一篇:一种人机对话系统的文本分类方法





