[发明专利]一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统在审
申请号: | 202110496876.X | 申请日: | 2021-05-07 |
公开(公告)号: | CN113342928A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 魏晓;钱权;赵睿;丁聪;陈永琪 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284;G06F40/30 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 textrank 算法 钢材 专利 文本 工艺 信息 抽取 方法 及其 系统 | ||
1.一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,包括以下步骤:
步骤A:对钢材料工艺专利文献文本进行预处理,主要包括分词、去停用词以及词性标注,得到初步筛选出的主题词集合w={w1,w2,...wn};
步骤B:计算主题词集合中每个词语的TF*IDF值;首先计算词频TF值,统计w集合中相关词语在文本中出现的次数;再计算逆文档频率IDF值;其中,TF表示主题词集合中每个词语出现的频率值,其中,IDF表示逆文本频率值,由总文本数量除以包含该词语的文本数量,再将得到的商取以10为底的对数得到;
步骤C:将文本预处理后的主题词集合w通过word2vec工具转化为向量表示形式;选用其中的CBOW模型,并用hierarchical softmax方法完成转化,采用n维的词向量表示,得到新的工艺文本主题词集合wc;
步骤D:增加词位置信息以及合并语义相似词,目的是为了得到最终关键词的排序信息;
步骤E:将待抽取的专利文本以句子为单位进行分离,整个文本的句子集合表示为S={s1,s2,...sn};同时以句子为单位,对每个句子进行同步骤A的预处理工作,并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示,并通过拼接方式构成每个句子的矩阵表示Mn*m,n为词向量维度,m为文本中最大句子长度,不足补零向量;
步骤F:构建改进TextRank算法的图模型,设置初始值进行迭代直至收敛.
步骤G:对步骤F中的所有句子顶点得分进行排序,取topK作为抽取出的工艺关键信息,其中K值为文本所有句子数的10%;并对此K个句子的顺序进行排列,并去除其中的冗余信息,使最终保留的句子具有连贯性;输出最终钢材料专利文本中抽取出的工艺信息。
2.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,所述步骤A包括如下步骤:
步骤A1:分词使用的是效果较好的中文分词工具jieba,对文本中包含的字符进行切分。
步骤A2:根据钢材料领域工艺文本特性总结停用词表,并利用构建好的停用词表去除工艺文本中无用词,这些词主要为介词、助词、连接词等。
步骤A3:使用jieba工具包对工艺文本进行词性标注,去掉文本中所有的非名词,获得工艺文本主题词集合w={w1,w2,...wn}。
3.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,所述步骤D包括如下步骤:
步骤D1:文本在抽取词信息的时候,如果当前词语位于句子前部应增加权重信息,根据上步利用CBOW模型得到的词向量得到距离值,将其与位置平均值比较可以得到距离信息,距离句首位置越近权重Pi越大,具体的权重Pi分配公式如下:
将步骤B得到的词的TF-IDF值与权重Pi相乘得到TF-IDFnew作为融合词位置信息的结果;
步骤D2:将步骤C中的集合wc得到的剩余词利用余弦相似度计算相似性,公式如下:
其中词wx=(v1,v2,...vn)、wy=(v1,v2,...vn)均为通过步骤C中CBOW模型转化的n维向量表示形式;wordsim(wx,wy)的值越大代表词语语义相似度越高,最终去掉语义相似的词语;合并的规则是保留两个词中TF-IDFnew值较大的词;
步骤D3:将剩余词语按TF-IDFnew值排序,根据设定的阈值得到最终该工艺专利文本的主题词集合w,为最终抽取出文本中工艺关键信息提供主题词语义支持。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110496876.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种说话者确认方法及系统
- 下一篇:标签查询方法、装置、设备及存储介质