[发明专利]一种基于空间向量模型的实体相似度计算方法在审

申请号：	201910499166.5	申请日：	2019-06-11
公开（公告）号：	CN110532396A	公开（公告）日：	2019-12-03
发明（设计）人：	肖清林	申请（专利权）人：	福建奇点时空数字科技有限公司
主分类号：	G06F16/36	分类号：	G06F16/36;G06F17/27;G06Q50/26
代理公司：	44248 深圳市科吉华烽知识产权事务所(普通合伙)	代理人：	谢肖雄<国际申请>=<国际公布>=<进入
地址：	361000 福建省厦门市软件园***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特征项文本短语正整数去除空间向量模型词表相似度计算空间向量使用频率向量夹角词组功能词相似度禁用余弦分析分割
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于空间向量模型的实体相似度计算方法，包括以下具体步骤；输入需要对比的文本，并对文本分别记为D1、D2……Dn；n为正整数；对需要对比的文本进行分析，提取文本中出现的字、词、词组或短语并分别设置成不同的项；并对项分别编号X1、X2……Xn；n为正整数；设置禁用词表；用于去除文本中存在的一些没有实在意义但使用频率很高的虚词和功能词；去除文本中出现的无用的项；对项进行分析；并根据字、词或短语作为选择特征项单位；根据选择的特征项单位选择合适的特征项；对文本进行分割并使用特征项来进行表示；根据特征项建立空间向量；利用向量夹角的余弦值计算不同特征项之间的相似度。

技术领域

本发明涉及文本的智能信息处理技术领域，尤其涉及一种基于空间向量模型的实体相似度计算方法。

背景技术

在文本的智能信息处理领域内，需要对不同的数据文本进行比对，现有技术中对比对文件进行加权计算时，赋权容易造成误差，影响最终的比对结果。

为解决上述问题，本申请中提出一种基于空间向量模型的实体相似度计算方法。

发明内容

(一)发明目的

为解决背景技术中存在的文本的智能信息处理领域内，需要对不同的文本进行比对，现有技术中对比对文件进行加权计算时，赋权容易造成误差，影响最终的比对结果的技术问题，本发明提出一种基于空间向量模型的实体相似度计算方法，本发明降低了虚词和功能词对赋权带来的影响，同时使用TF-IDF法计算权重提高了赋权的准确性，从而提高了相似度计算的结果。

(二)技术方案

为解决上述问题，本发明提供了一种基于空间向量模型的实体相似度计算方法，包括以下具体步骤；

S1、输入需要对比的文本，并对文本分别记为D1、D2……Dn；n为正整数；

S2、对需要对比的文本进行分析，提取文本中出现的字、词、词组或短语并分别设置成不同的项；并对项分别编号X1、X2……Xn；n为正整数；

S3、设置禁用词表；用于去除文本中存在的一些没有实在意义但使用频率很高的虚词和功能词；

S4、去除文本中出现的无用的项；

S5、对项进行分析；并根据字、词或短语作为选择特征项单位；

S6、根据选择的特征项单位选择合适的特征项；

S7、对文本进行分割并使用特征项来进行表示；

S8、根据特征项建立空间向量；

S9、利用向量夹角的余弦值计算不同特征项之间的相似度。

优选的，步骤S7包括词语粗切分，词语粗切分通过采取最大匹配法、最短路径法、概率统计法或全切分法获得粗切分结果。