[发明专利]一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统在审

专利信息
申请号: 202110496876.X 申请日: 2021-05-07
公开(公告)号: CN113342928A 公开(公告)日: 2021-09-03
发明(设计)人: 魏晓;钱权;赵睿;丁聪;陈永琪 申请(专利权)人: 上海大学
主分类号: G06F16/33 分类号: G06F16/33;G06F40/284;G06F40/30
代理公司: 上海上大专利事务所(普通合伙) 31205 代理人: 何文欣
地址: 200444*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 textrank 算法 钢材 专利 文本 工艺 信息 抽取 方法 及其 系统
【权利要求书】:

1.一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,包括以下步骤:

步骤A:对钢材料工艺专利文献文本进行预处理,主要包括分词、去停用词以及词性标注,得到初步筛选出的主题词集合w={w1,w2,...wn};

步骤B:计算主题词集合中每个词语的TF*IDF值;首先计算词频TF值,统计w集合中相关词语在文本中出现的次数;再计算逆文档频率IDF值;其中,TF表示主题词集合中每个词语出现的频率值,其中,IDF表示逆文本频率值,由总文本数量除以包含该词语的文本数量,再将得到的商取以10为底的对数得到;

步骤C:将文本预处理后的主题词集合w通过word2vec工具转化为向量表示形式;选用其中的CBOW模型,并用hierarchical softmax方法完成转化,采用n维的词向量表示,得到新的工艺文本主题词集合wc

步骤D:增加词位置信息以及合并语义相似词,目的是为了得到最终关键词的排序信息;

步骤E:将待抽取的专利文本以句子为单位进行分离,整个文本的句子集合表示为S={s1,s2,...sn};同时以句子为单位,对每个句子进行同步骤A的预处理工作,并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示,并通过拼接方式构成每个句子的矩阵表示Mn*m,n为词向量维度,m为文本中最大句子长度,不足补零向量;

步骤F:构建改进TextRank算法的图模型,设置初始值进行迭代直至收敛.

步骤G:对步骤F中的所有句子顶点得分进行排序,取topK作为抽取出的工艺关键信息,其中K值为文本所有句子数的10%;并对此K个句子的顺序进行排列,并去除其中的冗余信息,使最终保留的句子具有连贯性;输出最终钢材料专利文本中抽取出的工艺信息。

2.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,所述步骤A包括如下步骤:

步骤A1:分词使用的是效果较好的中文分词工具jieba,对文本中包含的字符进行切分。

步骤A2:根据钢材料领域工艺文本特性总结停用词表,并利用构建好的停用词表去除工艺文本中无用词,这些词主要为介词、助词、连接词等。

步骤A3:使用jieba工具包对工艺文本进行词性标注,去掉文本中所有的非名词,获得工艺文本主题词集合w={w1,w2,...wn}。

3.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,所述步骤D包括如下步骤:

步骤D1:文本在抽取词信息的时候,如果当前词语位于句子前部应增加权重信息,根据上步利用CBOW模型得到的词向量得到距离值,将其与位置平均值比较可以得到距离信息,距离句首位置越近权重Pi越大,具体的权重Pi分配公式如下:

将步骤B得到的词的TF-IDF值与权重Pi相乘得到TF-IDFnew作为融合词位置信息的结果;

步骤D2:将步骤C中的集合wc得到的剩余词利用余弦相似度计算相似性,公式如下:

其中词wx=(v1,v2,...vn)、wy=(v1,v2,...vn)均为通过步骤C中CBOW模型转化的n维向量表示形式;wordsim(wx,wy)的值越大代表词语语义相似度越高,最终去掉语义相似的词语;合并的规则是保留两个词中TF-IDFnew值较大的词;

步骤D3:将剩余词语按TF-IDFnew值排序,根据设定的阈值得到最终该工艺专利文本的主题词集合w,为最终抽取出文本中工艺关键信息提供主题词语义支持。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110496876.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top