[发明专利]一种基于新核函数Luke核的专利文献相似度检测方法有效
| 申请号: | 201310400244.4 | 申请日: | 2013-09-05 |
| 公开(公告)号: | CN103455609A | 公开(公告)日: | 2013-12-18 |
| 发明(设计)人: | 王秀红;卢章平;陈潇君;汪满容;鞠时光 | 申请(专利权)人: | 江苏大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 卢霞 |
| 地址: | 212013 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 函数 luke 专利 文献 相似 检测 方法 | ||
技术领域
本发明属于信息检索技术领域,具体涉及专利文献的文本相似度计算技术。
背景技术
专利的相似度是旨专利间技术内容上的相似性,现有的计算方法大体分成两类:一是基于专利引文的分析,二是基于专利内容的分析。利用引文分析法来来分析文献间的相似性的研究已久。在专利相似检测方面,Stuart用专利的共引关系测量日本10家半导体企业的技术相似度。Lai利用共引分析法来测量专利的相似度。McGill和Mowery等在分析专利联盟内企业之间的关系时,采用互引率测量企业的专利相似度。利用引文分析法来测量专利的相似度有许多不足:只能体现有引用有关系的专利间的相似,不能表明所有真正相关的专利间的相似关系,如中国专利大部分没有引文,这样的专利文献相似度计算通过引文分析法无法很好地解决。基于专利内容来分析专利内容上的相似性的目前研究主要有:Bergmann,Moehrle等提出专利语义分析方法;Gerken于2012年提出一种基于语义专利分析的方法来测量专利的新颖性。Cascini提出发明功能树方法,通过比较该树中组件以及组件的功能和层次关系来确定专利的相似度,反映的是专利概念上的相似度而非专利内容上的相似度。Magerman等验证了文本挖掘技术测量专利相似度的准确性和可能性,Yoon等利用文本挖掘技术对专利文献进行预处理,构建专利的关键词向量、利用传统的方法,通过计算向量间的欧氏距离来计算专利的相似度,相似检测的精准率和召回率有待进一步提高。陈芨熙等依据专利文献特征构建专利模型树和节点,基于现有的向量空间模型进行相似计算,以专利的名称和摘要信息加权相似度作为分类的依据。彭继东和谭宗颖提出一种基于文本挖掘技术,以专利名称、摘要、权利要求和说明书4个文本要素的加权相似度作为专利相似度的计算方法[1]。Kim等2012年提出使用奇异值方法来计算给定的节点对节点相似矩阵的贡献,从而检测有影响力的专利。Moehrle于2012年提出基于设计决策和结果的文本专利相似测量方法。基于内容的专利相似度计算方法,比起引文分析方法来具有更准确和全面的优势。现有的研究中,大部分是通过分析专利文献的特征,利用现有的向量空间模型计算方法或文本挖掘技术来计算同来类间或一同一特征内的相似度;本课题组提出的S_Wang核[2](专利号ZL201210105942.7)在分布式信息检索结果融合中有较好的表现。
专利文献的相似度检测中最本质的问题是计算两个专利文献间的相似度。现有技术中用于计算专利文献的相似度的数学模型往往采用传统的现有向量相似计算数学模型,缺少针对性;在专利文献的结构要素方面只考虑到名称、摘要、权利要求和说明书,忽视了国际专利分类号在专利文献相似计算中的重要作用;现有的方法导致在对专利文献进行相似度计算时的精准率和召回率均有待进一步提高。
[1]彭继东;谭宗颖一种基于文本挖掘的专利相似度测量方法及其应用,情报理论与实践,2012(12):114-118.
[2]王秀红.一种基于核函数的文档相似检测方法,专利号ZL201210105942.7.
发明内容
本发明的目的在于提供一种基于新核函数Luke核的专利文献相似度检测方法,进一步提高专利相似计算的精准率和召回率。
为了解决以上技术问题,本发明构造新的适合专利文献相似度计算的核函数,并结合考虑国际专利分类号在专利文献相似度计算中的重要作用。具体技术方案如下:
一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于包括以下步骤:
步骤1,将待比对的两篇专利文献DX和DZ的文本分别表示成向量x和z的步骤;
步骤2,专利文献结构化表示的步骤:将专利文献分成专利名称、摘要、权利要求、说明书以及主分类号即IPC主分类号5个要素;所述待比对的两篇专利文献DX和DZ的所述前4个要素分别依次据步骤1所述的方法表示成向量为x1、x2、x3、x4和z1、z2、z3、z4;
步骤3,构造适于专利文献相似度计算的新核函数k(x,z),并对所述函数k(x,z)是否可以作为相似度计算的核函数给予理论证明;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310400244.4/2.html,转载请声明来源钻瓜专利网。





