[发明专利]文本相似度处理方法在审

申请号：	201510969370.0	申请日：	2015-12-21
公开（公告）号：	CN105389297A	公开（公告）日：	2016-03-09
发明（设计）人：	梁丰;王遵义;翁时锋	申请（专利权）人：	浙江万里学院
主分类号：	G06F17/22	分类号：	G06F17/22
代理公司：	上海唯源专利代理有限公司 31229	代理人：	曾耀先
地址：	315199***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本相似处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种信息处理方法，特别涉及一种文本相似度处理方法。

背景技术

随着互联网信息的迅速增长，如何从海量信息中获取用户所需的信息是当前一项重要的研究工作。在国内外对此所开展的文本挖掘、人工智能、信息检索、知识管理等相关研究中，文本相似度计算得到广泛应用。目前，相似度计算方法主要分为基于大规模文本集统计的传统方法和基于语义计算的方法。

基于大规模文本集统计的方法，通常采用向量空间模型(VectorSpaceModel，VSM)和隐性语义索引模型(LatentSemanticIndexing，LSI)等方法。这些方法均基于关键词进行相似度计算，未考虑特征项的语义信息，例如，认为“火车”和“交通工具”没有相关性，相似度为0，而实际上前者相对后者来说是具体概念，后者是前者的抽象类别概念，两词项间有着语义相似关系。由于只考虑词在上下文中的统计特性，而没有考虑词的语义，因此，基于大规模文本集统计方法具有一定的局限性。

基于语义文本相似度计算方法由于过于注重语义概念的结构分布，需要人为参与，人力成本高，计算过程复杂。

发明内容

本发明实施例的目的是提供一种文本相似度处理方法，以解决现有的文本相似度计算方法准确性低、计算过程复杂、人力成本高的问题。

本发明实施例提出一种文本相似度处理方法，包括：

采集互联网信息，并生成元数据特征向量；

根据生成的元数据特征向量构建概念树，并基于构建的所述概念树生成子树；

通过所述子树计算采集的互联网信息中文本之间的相似度。

依照本发明较佳实施例所述的文本相似度处理方法，所述采集互联网信息，并生成元数据特征向量的步骤中，生成元数据特征向量时依照以下规则：

Matrix＝(dt_ik)_m×n，

其中，Matrix表示一个m×n矩阵，元素dt_ik表示第i个文本的第k个元数据特征项。

依照本发明较佳实施例所述的文本相似度处理方法，所述根据生成的元数据特征向量构建概念树的步骤包括：

根据采集到的互联网信息中文本数据结构，构建多个概念节点；