[发明专利]基于加权TextRank的多语言多文档摘要抽取方法在审

申请号：	202110195264.7	申请日：	2021-02-20
公开（公告）号：	CN112948543A	公开（公告）日：	2021-06-11
发明（设计）人：	唐彦;刘晓莹	申请（专利权）人：	河海大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/34;G06F40/211;G06F40/216;G06F40/289;G06F40/30
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	张华蒙
地址：	210024 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于加权 textrank 语言文档摘要抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于加权TextRank的多语言多文档摘要抽取方法，属于摘要抽取技术领域，包括步骤：选择A类不同主题的文档集，每个文档集包含B篇中文文档和C篇英文文档，根据中英文进行不同预处理；使用GloVe模型训练词向量，使用维基中文语料训练得到词向量；采用词库映射方法，构建一个具有m个词的高频常用词词库，将文本的语义信息映射到常用的高频词库中，利用词库映射句子语义得到句向量；在句子之间构建TextRank模型，迭代计算句子权重，通过句子位置、和标题的相似度两个指标对句子加权；按照权重由大到小排序，选择权重前K的句子对应原文顺序作为输出，完成摘要抽取过程。该方法简单易行，应用前景广阔。

技术领域

本发明属于摘要抽取技术领域，具体涉及基于加权TextRank的多语言多文档摘要抽取方法。

背景技术

文本摘要(TextSummarization)是自然语言处理(NaturalLanguageProcessing)领域之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要，按照输入类型可分为单文档摘要和多文档摘要，其中单文档摘要从给定的一个文档中生成摘要，多文档摘要从给定的一组主题相关的文档中生成摘要；按照输出类型可分为抽取式摘要和生成式摘要，抽取式摘要从源文档中抽取关键句和关键词组成摘要，摘要全部来源于原文，生成式摘要根据原文，允许生成新的词语、短语来组成摘要。本发明主要研究内容是基于改进加权的TextRank多语言多文档抽取方法。

多语言多文档自动摘要(Multi-lingualMulti-documentSummarization,MMS)指的是给定多篇属于同一个主题的文档，从这多篇文档中抽取出一个摘要，要求生成的摘要在尽可能全面的总结多篇文档的核心思想的同时，需要保证摘要的简洁、精炼。多语言指的是摘要系统要同时面向两种以上语言，目前大多数的自动摘要面向的为中文和英文两种语言。

词向量(WordEmbedding)，它将来自词汇表的单词或短语被映射成为稠密向量，并且对于相似的词，其对应的词向量也相近。2013年，由TomasMikolov领导的Google团队创建了word2vec，可以比以前的方法更快地训练向量空间模型。为了克服全局矩阵分解和局部上下文窗口的缺陷，在2014年，JeffreyPennington等人提出了一种新的GloVe方法，该方法基于全局词汇共现的统计信息来学习词向量，从而将统计信息与局部上下文窗口方法的优点都结合起来，加快模型的训练速度，又可以控制词的相对权重，更加灵活。实验证明当词向量用作底层输入表示时，单词和短语嵌入已经被证明可以提高NLP任务的性能，例如语法分析和情感分析。

预处理(Preprocessing)的主要任务是对原始的多语言多文档集进行此法、句法层面的初步处理，一方面减小后续步骤使用原始文档是的开销，另一方面使得语言差异对于后续步骤来说可控。常用的预处理步骤有文档合并、分句、分词、词性标注等。这些步骤通常依赖一定的语言学常识，例如，不同语言间所使用的标点符号有所不同，英语在词之间有空格分隔，而汉语没有，需要做特殊的分词处理等。

传统TextRank是基于图的方法，由Mihalcea等人提出，该方法是谷歌搜索引擎PageRank方法的有效应用。TextRank将句子作为节点构建无向有权图，利用边权值迭代更新节点分数，然后选择得分靠前的句子组合为摘要。但是传统的TextRank算法在做文本摘要提取时需要计算句子间的相似性，它使用的是计数句子间相同单词的方法，忽略了词语语义、语法等要素，简单地当成是词语的集合，并且每个词语都是独立出现的，互相不依赖彼此之间出现与否。针对此类问题，本文提出了改进的基于TextRank和GloVe词向量的自动文本摘要算法。使用GloVe训练中文词向量，获取每个词的语义向量，采用基于词向量的高维词库映射计算句子之间的相似度，而取代基于相同词语共同出现的频率作为句子之间的影响权重。利用句子位置和标题的相似度共同作为句子之间权重的影响因子，以提取文本的摘要结果。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110195264.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于加权TextRank的多语言多文档摘要抽取方法在审

专利文献下载