[发明专利]一种专利文献关键短语自动提取方法有效
申请号: | 201410056332.1 | 申请日: | 2014-02-19 |
公开(公告)号: | CN103885934B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 任智军;张威;李进;杨婧;张江涛;肖湘 | 申请(专利权)人: | 中国专利信息中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京瑞恒信达知识产权代理事务所(普通合伙)11382 | 代理人: | 苗青盛 |
地址: | 100088 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供一种专利文献关键短语自动提取方法,包括步骤1文本的预处理;步骤2识别专利发明的主题类型;步骤3提取候选关键短语并进行短语过滤;步骤4对候选关键短语进行权重计算并选出关键短语。 | ||
搜索关键词: | 一种 专利 文献 关键 短语 自动 提取 方法 | ||
【主权项】:
一种专利文献关键短语自动提取方法,包括:步骤1:进行文本域的预处理;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:对过滤后的候选关键短语进行权重计算并选出关键短语;其中,步骤1包括:步骤11、识别专利文献各文本域,包括识别权利要求书、说明书、说明书摘要、附图说明或者发明内容的文本域;步骤12、对专利全文进行分句,根据需要进行分词处理,分词后进行词性标注;步骤13、对于各文本域中的特殊位置进行识别;其中,步骤4中,权重计算方法为:短语权重=(词频权重+IPC权重)/2*文本域因子*位置因子,其中,位置因子是短语首次出现的位置带来的权重影响,文本域因子是指短语位于专利文献不同文本域对其权重的影响。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国专利信息中心,未经中国专利信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410056332.1/,转载请声明来源钻瓜专利网。
- 上一篇:同心轴转角差调节装置
- 下一篇:一种连铸JZ35车轴用钢坯的生产方法