[发明专利]一种基于潜在语义分析的文档相似度识别方法及装置有效
| 申请号: | 201911378044.7 | 申请日: | 2019-12-27 |
| 公开(公告)号: | CN111178038B | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | 于文才;杜志诚;杜明本;钟琴隆;王秀芹;朱习文;董林林;叶玏 | 申请(专利权)人: | 山东旗帜信息有限公司 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30;G06F16/33 |
| 代理公司: | 济南千慧专利事务所(普通合伙企业) 37232 | 代理人: | 赵长林 |
| 地址: | 250000 山东省济南市高新*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 潜在 语义 分析 文档 相似 识别 方法 装置 | ||
一种基于潜在语义分析的文档相似度识别方法及装置,包括如下步骤:构建原始文档库,所述原始文档库包括若干原始文本,所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;获取输入文本,将输入文本进行预处理得到输入文本词袋向量;计算输入文本词袋向量与原始文本词袋向量的近似程度,得到与输入文本近似程度最高的原始文本。本申请首先构建一个文档库,然后以该文档库作为基本文本,将输入文本作为主对比文本进行对比,借助词袋向量,从基础文本中找到输入文本类似的文档,由于词袋向量本身考虑到了语义,因此可以更好的在潜在语义的基础上获得更好的文档相似度的识别效果。
技术领域
本申请涉及一种基于潜在语义分析的文档相似度识别方法及装置。
背景技术
随着计算机处理能力的增强,如何将自然语言数字化成为了一个重要的客体,因为只有数字化的自然语言才有助于进行快速的计算机处理。
随着网络信息的大量堆积,现有的文档数是非常可观的,从某种角度上讲,将新出现的文档归类到现有文档中至少在应用层面足够使用,比如网络购物中产品的评价等,这就涉及到文档相似度的对比。现在有非常多的理论方法进行文档相似度对比,但是其多出于统计方法,实质上与语义并无关联,这实际上是在丧失自然语言属性的情况下进行了自然语言的处理,虽然也具有一定的效果,但大有缘木求鱼之感。
发明内容
为了解决上述问题,本申请一方面提出了一种基于潜在语义分析的文档相似度识别方法,包括如下步骤:构建原始文档库,所述原始文档库包括若干原始文本,所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;获取输入文本,将输入文本进行预处理得到输入文本词袋向量;计算输入文本词袋向量与原始文本词袋向量的近似程度,得到与输入文本近似程度最高的原始文本。本申请首先构建一个文档库,然后以该文档库作为基本文本,将输入文本作为主对比文本进行对比,借助词袋向量,从基础文本中找到输入文本类似的文档,由于词袋向量本身考虑到了语义,因此可以更好的在潜在语义的基础上获得更好的文档相似度的识别效果;但是需要说明的是,该种方式实质上需要逐个对比,计算量较大,因此本申请下面还对于词袋向量的获取方式以及计算方式进行了相应的优化。
优选的,所述预处理包括如下步骤:
获取词袋模型;
构建单词-文本矩阵,矩阵内各个单词按照重要性进行赋值;
确定阈值,将赋值结果低于阈值的单词删除以进行降维处理;
得到最终的单词-文本矩阵,从而获得其词袋向量。本申请通过进行赋值-阈值确定以及删除得到经删减后的单词-文本矩阵,而该单词-文本矩阵的获取之后既能减少自身的计算量,又能更加突出关键单词的影响,删除掉非关键单词。正是由于此种操作,使得如何对于单词-文本进行筛选以及有效的进行分解使得最终得到的词袋向量在具有代表性的前提之下又侵占较少的处理能力成为识别该模型优劣的考究前提。
优选的,所述单词赋值采用TF-IDF方法进行赋值。
优选的,所述降维处理采用SVD矩阵奇异值分解的方式进行。本申请通过采用TF-IDF赋值之后,进行SVD矩阵分解可以相对快捷的将无效的词去掉,优点是所有的模型都是现有的,训练起来较为容易,缺点是对于文档文义进行的是一种表面的应用,而没有实质上进行更加广阔的有效应用。
优选的,所述单词包括单字和词组,获取单词-文本矩阵之后,首先筛选出虚词,将虚词在单词-文本矩阵内赋值为0;所述虚词包括冠词,副词,介词,连词,叹词和拟声词。本申请所说的虚词与现有的汉语语法结构中的虚词有一定的差别,但是其所包含的冠词,副词,介词,连词,叹词和拟声词等同于现有的汉语语法中所采用的词,因此,在本申请的方法中,通过构建单词库来确定相应的单词属于虚词、名词、动词还是形容词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东旗帜信息有限公司,未经山东旗帜信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911378044.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于气象的语音交互中的语义分析方法
- 下一篇:一种用于介入手术的血管支架装置





