[发明专利]一种专利文献关键短语自动提取方法有效
申请号: | 201410056332.1 | 申请日: | 2014-02-19 |
公开(公告)号: | CN103885934B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 任智军;张威;李进;杨婧;张江涛;肖湘 | 申请(专利权)人: | 中国专利信息中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京瑞恒信达知识产权代理事务所(普通合伙)11382 | 代理人: | 苗青盛 |
地址: | 100088 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专利 文献 关键 短语 自动 提取 方法 | ||
技术领域
本发明涉及文本信息处理技术,更具体地,涉及一种专利文献关键短语自动提取方法。
背景技术
随着专利文献数量的迅速增长,专利文献专业和社会化查询日益普遍,实现专利文献数据的查全率和查准率成为专利文献信息检索的难点和重点。长期以来,利用原始专利数据来完成的专利信息的检索,往往使得查全率和查准率很差并且通常会相互矛盾。由于专利文献原始信息来源于申请人的原始提交资料,往往存在大量相关的技术资料和引用技术,使得在检索过程中,为了保证查全率,就会引入过多文件,出现大量的噪音数据或者噪音文献。而为了保证查准率,就会限制过多的条件并且加载较为严格的检索要求,往往会丢失很多有用的检索结果。
为了解决这个问题,通用的方法就是对于专利文献进行前期的数据加工,在全面了解专利技术的基础上,按照一定的加工规则对于文献进行区分和标引,而使得数据较为集中和降低数据量。并且通过整理之后,提取的文献信息还保证和技术主题相关。但是,由于数据加工需要耗费大量的时间、人力和财力,建设成本非常之高,加工效率目前也不尽如人意。
但是目前缺乏专业、精准的标引工具,大部分都是通过手工标引来提高准确率,使得标引工作在目前日益增加的专利申请量面前更是难以满足需要。中国发明专利CN1818906A提供了一种专利文献的标引方法,该方法通过建立技术分类和关键词对应,并且提供通过修正来提高准确率,但是该方法还是依赖 于人工,没有实现完全自动,并且该方法处理的数据较大,难以实用。
发明内容
为克服现有技术的上述缺陷,本发明提出一种专利文献关键短语自动提取方法。
根据本发明的一个方面,提出了一种专利文献关键短语自动提取方法,包括:步骤1:文本的预处理;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:对候选关键短语进行权重计算并选出关键短语。
本发明通过选取3000篇专利文献为训练集对上述方法构建的实验系统进行训练,另选取100篇专利文献为测试集,根据上述本发明涉及的方法,对每篇专利文档提取15个关键短语。同时,使用现有的基于统计的方法提取相同数量关键短语作为对比。同时,人工对同样的100篇专利文献提取关键短语,人工提取的关键短语作为判定提取的关键短语是否正确的标准。使用上述数据计算方法的准确率,使用公式如下:
测试方法提取的关键短语的数量×100%
人工提取的关键短语的数量×100%
实验结果如下:使用本发明涉及的方法的准确率为95.24%,使用传统方法的准确率为81.61%。使用本发明涉及的方法的召回率为85.5%,使用传统方法的召回率为84.2%。可见,使用本发明涉及的方法,明显提高了关键短语的抽取准确率,召回率也略有提高,对专利文献的关键短语提取显示了较好的效果。
附图说明
图1为根据本发明的专利文献自动抽取关键短语方法的流程图;
图2为根据本发明的专利文献自动抽取关键短语方法提取出的关键短语-文本域关联的示意图。
为了能明确实现本发明的实施例的结构,在图中标注了特定的尺寸、结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定尺寸、结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种专利文献关键短语自动提取方法进行详细描述。
在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。
在本说明书中使用的术语仅用于更好的理解本发明的实施方案的目的,不用于限制本发明。本说明书中使用的“一个”、“一种”、“该”也可以包括复数形式,除非上下文明确指出。
术语“短语”,是指包括由一个及以上单词构成的名词性短语、以及嵌套了短语的名词性结构,本发明的“短语”最小单位是单个词,是广义的短语概念。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国专利信息中心,未经中国专利信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410056332.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:同心轴转角差调节装置
- 下一篇:一种连铸JZ35车轴用钢坯的生产方法