[发明专利]基于加权TextRank的多语言多文档摘要抽取方法在审
申请号: | 202110195264.7 | 申请日: | 2021-02-20 |
公开(公告)号: | CN112948543A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 唐彦;刘晓莹 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34;G06F40/211;G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张华蒙 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 加权 textrank 语言 文档 摘要 抽取 方法 | ||
1.基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,包括下列步骤:
步骤S1:选择A类不同主题的文档集,其中每个文档集包含B篇中文文档和C篇英文文档,进行预处理;
步骤S2:使用GloVe模型训练词向量,基于维基中文语料训练得到词向量;
步骤S3:采用词库映射方法,构建一个具有m个词的词库,将文本的语义信息映射到该词库中,利用词库映射句子语义得到句向量;
步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置和标题的相似度两个指标对句子加权;
步骤S5:按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。
2.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S1进一步包括:
步骤S1-1:针对中文文档,根据标点符号分句,针对英文文档,根据点号分句,设定句子总数为len;得到句集合sentence=[S1,S2,...,Si,...,Slen],1≤i≤len,其中Si表示句集合的第i句话;
步骤S1-2:中文文档使用开源工具StanfordNLP进行分词,英文文档使用开源工具NLTK进行分词;
步骤S1-3:过滤掉文本中无意义的停用词得到每个句子的词集合W=[w1,w2,w3,...,wi,...,wm],1≤i≤m,其中wi表示句子Si的第i个词语。
3.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S3进一步包括:
步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm],1≤i≤m,其中ri表示高维词库中第i个词语的词向量;
步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn],1≤i≤n,其中ti表示分词后文本中第i个词语的词向量。
4.根据权利要求3所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,在所述的步骤S3-2之后进入步骤S3-3:将文本映射到高维词库中,
表示为
S=
[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。
5.根据权利要求4所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S4进一步包括:
步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;
步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为
其中vi表示第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,通常取0.85;开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;
步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:
其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;
步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si)表示句子Si节点与标题相似度权重;
步骤S4-5:Wp、Wt两种权重影响因子归一化之后得到W′p、W′t;
步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sj),将句子位置权重和标题相似度权重加进去提高原有句子权重;
步骤S4-7:得到权重最高的K个句子,按照原文顺序作为摘要输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110195264.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隧道中心水沟模板
- 下一篇:一种工业防水连接器