[发明专利]文本相似度处理方法在审
| 申请号: | 201510969370.0 | 申请日: | 2015-12-21 |
| 公开(公告)号: | CN105389297A | 公开(公告)日: | 2016-03-09 |
| 发明(设计)人: | 梁丰;王遵义;翁时锋 | 申请(专利权)人: | 浙江万里学院 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22 |
| 代理公司: | 上海唯源专利代理有限公司 31229 | 代理人: | 曾耀先 |
| 地址: | 315199*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 相似 处理 方法 | ||
1.一种文本相似度处理方法,其特征在于,包括:
采集互联网信息,并生成元数据特征向量;
根据生成的元数据特征向量构建概念树,并基于构建的所述概念树生成子树;
通过所述子树计算采集的互联网信息中文本之间的相似度。
2.如权利要求1所述的文本相似度处理方法,其特征在于,所述采集互联网信息,并生成元数据特征向量的步骤中,生成元数据特征向量时依照以下规则:
Matrix=(dtik)m×n,
其中,Matrix表示一个m×n矩阵,元素dtik表示第i个文本的第k个元数据特征项。
3.如权利要求1所述的文本相似度处理方法,其特征在于,所述根据生成的元数据特征向量构建概念树的步骤包括:
根据采集到的互联网信息中文本数据结构,构建多个概念节点;
计算各个概念节点之间的相似性;
根据各个概念节点的相似性构建概念树。
4.如权利要求3所述的文本相似度处理方法,其特征在于,所述计算各个概念节点之间的相似性的步骤中,依照以下公式计算各个概念节点之间的相似性:
其中,lso(ci,cj)是概念ci和概念cj的公共最近父结点,depth(lso(ci,cj))是两个不同的概念ci和概念cj的公共最近父结点在概念树中的深度,len(ci,lso(ci,cj))是概念ci到公共最近父结点的路径上概念结点的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江万里学院,未经浙江万里学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510969370.0/1.html,转载请声明来源钻瓜专利网。





