[发明专利]文本相似度确定方法和装置有效
申请号: | 201911376931.0 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111144109B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 张文剑;牟小峰 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/247;G06F40/30;G06F18/22 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 李婧;栗若木 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 确定 方法 装置 | ||
1.一种文本相似度确定方法,其特征在于,包括:
分别对第一文本和第二文本进行分词得到第一分词集合和第二分词集合,在预设的词向量库中,根据词向量和分词的对应关系,查找所述第一分词集合和所述第二分词集合中各分词对应的词向量,分别得到第一词向量集合和第二词向量集合;
当确定所述第一词向量集合和所述第二词向量集合都不为空集合时,计算所述第一词向量集合和所述第二词向量集合之间的最大余弦距离;
根据所述第一词向量集合和所述第二词向量集合之间的最大余弦距离,以及预设的第一词向量集合和所述第二词向量集合的词频信息,确定所述第一文本和所述第二文本之间的相似度;
其中,所述第一词向量集合和所述第二词向量集合之间的最大余弦距离包括:所述第一词向量集合中每个词向量的最大余弦距离和所述第二词向量集合中每个词向量的最大余弦距离;
对于所述第一词向量集合中的每个词向量分别进行如下操作:
计算该词向量到第二词向量集合中每个词向量的余弦距离,将计算得到的最大的余弦距离作为该词向量的最大余弦距离;
对于所述第二词向量集合中每个词向量分别进行如下操作:
计算该词向量到所述第二词向量集合中每个词向量的余弦距离,将计算得到的最大的余弦距离作为该词向量的最大余弦距离;
所述预设的第一词向量集合和所述第二词向量集合的词频信息包括:所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频;
所述根据所述第一词向量集合和所述第二词向量集合之间的最大余弦距离以及预设第一词向量集合和所述第二词向量集合的词频信息,确定所述第一文本和所述第二文本之间的相似度,包括:
根据所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频,确定所述第一词向量集合和所述第二词向量集合中每个词向量的权重;
根据所述第一词向量集合和所述第二词向量集合中每个词向量的权重,计算所述第一词向量集合中的所有词向量的最大余弦距离和所述第二词向量集合中所有词向量的最大余弦距离的加权平均和,得到所述第一文本和所述第二文本之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:当确定所述第一词向量集合和所述第二词向量集合中任一个或均为空集合时,确定所述第一文本和所述第二文本不相似。
3.根据权利要求1所述的方法,其特征在于,根据所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频,确定所述第一词向量集合和所述第二词向量集合中每个词向量的权重,包括:根据所述第一词向量集合和第二词向量集合中每个词向量的预设词频,分别计算每个词向量的权重:
其中,α(w)为权重,p(w)为预设词频,c为超参数,其取值范围为[10-4,10-3]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911376931.0/1.html,转载请声明来源钻瓜专利网。