[发明专利]基于加权TextRank的多语言多文档摘要抽取方法在审

专利信息
申请号: 202110195264.7 申请日: 2021-02-20
公开(公告)号: CN112948543A 公开(公告)日: 2021-06-11
发明(设计)人: 唐彦;刘晓莹 申请(专利权)人: 河海大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/34;G06F40/211;G06F40/216;G06F40/289;G06F40/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 张华蒙
地址: 210024 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 加权 textrank 语言 文档 摘要 抽取 方法
【权利要求书】:

1.基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,包括下列步骤:

步骤S1:选择A类不同主题的文档集,其中每个文档集包含B篇中文文档和C篇英文文档,进行预处理;

步骤S2:使用GloVe模型训练词向量,基于维基中文语料训练得到词向量;

步骤S3:采用词库映射方法,构建一个具有m个词的词库,将文本的语义信息映射到该词库中,利用词库映射句子语义得到句向量;

步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置和标题的相似度两个指标对句子加权;

步骤S5:按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。

2.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S1进一步包括:

步骤S1-1:针对中文文档,根据标点符号分句,针对英文文档,根据点号分句,设定句子总数为len;得到句集合sentence=[S1,S2,...,Si,...,Slen],1≤i≤len,其中Si表示句集合的第i句话;

步骤S1-2:中文文档使用开源工具StanfordNLP进行分词,英文文档使用开源工具NLTK进行分词;

步骤S1-3:过滤掉文本中无意义的停用词得到每个句子的词集合W=[w1,w2,w3,...,wi,...,wm],1≤i≤m,其中wi表示句子Si的第i个词语。

3.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S3进一步包括:

步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm],1≤i≤m,其中ri表示高维词库中第i个词语的词向量;

步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn],1≤i≤n,其中ti表示分词后文本中第i个词语的词向量。

4.根据权利要求3所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,在所述的步骤S3-2之后进入步骤S3-3:将文本映射到高维词库中,

表示为

S=

[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。

5.根据权利要求4所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S4进一步包括:

步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;

步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为

其中vi表示第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,通常取0.85;开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;

步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:

其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;

步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si)表示句子Si节点与标题相似度权重;

步骤S4-5:Wp、Wt两种权重影响因子归一化之后得到W′p、W′t

步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sj),将句子位置权重和标题相似度权重加进去提高原有句子权重;

步骤S4-7:得到权重最高的K个句子,按照原文顺序作为摘要输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110195264.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top