[发明专利]基于加权TextRank的多语言多文档摘要抽取方法在审
申请号: | 202110195264.7 | 申请日: | 2021-02-20 |
公开(公告)号: | CN112948543A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 唐彦;刘晓莹 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34;G06F40/211;G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张华蒙 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 加权 textrank 语言 文档 摘要 抽取 方法 | ||
本发明公开了基于加权TextRank的多语言多文档摘要抽取方法,属于摘要抽取技术领域,包括步骤:选择A类不同主题的文档集,每个文档集包含B篇中文文档和C篇英文文档,根据中英文进行不同预处理;使用GloVe模型训练词向量,使用维基中文语料训练得到词向量;采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置、和标题的相似度两个指标对句子加权;按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。该方法简单易行,应用前景广阔。
技术领域
本发明属于摘要抽取技术领域,具体涉及基于加权TextRank的多语言多文档摘要抽取方法。
背景技术
文本摘要(TextSummarization)是自然语言处理(NaturalLanguageProcessing)领域之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要,按照输入类型可分为单文档摘要和多文档摘要,其中单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要;按照输出类型可分为抽取式摘要和生成式摘要,抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文,生成式摘要根据原文,允许生成新的词语、短语来组成摘要。本发明主要研究内容是基于改进加权的TextRank多语言多文档抽取方法。
多语言多文档自动摘要(Multi-lingualMulti-documentSummarization,MMS)指的是给定多篇属于同一个主题的文档,从这多篇文档中抽取出一个摘要,要求生成的摘要在尽可能全面的总结多篇文档的核心思想的同时,需要保证摘要的简洁、精炼。多语言指的是摘要系统要同时面向两种以上语言,目前大多数的自动摘要面向的为中文和英文两种语言。
词向量(WordEmbedding),它将来自词汇表的单词或短语被映射成为稠密向量,并且对于相似的词,其对应的词向量也相近。2013年,由TomasMikolov领导的Google团队创建了word2vec,可以比以前的方法更快地训练向量空间模型。为了克服全局矩阵分解和局部上下文窗口的缺陷,在2014年,JeffreyPennington等人提出了一种新的GloVe方法,该方法基于全局词汇共现的统计信息来学习词向量,从而将统计信息与局部上下文窗口方法的优点都结合起来,加快模型的训练速度,又可以控制词的相对权重,更加灵活。实验证明当词向量用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。
预处理(Preprocessing)的主要任务是对原始的多语言多文档集进行此法、句法层面的初步处理,一方面减小后续步骤使用原始文档是的开销,另一方面使得语言差异对于后续步骤来说可控。常用的预处理步骤有文档合并、分句、分词、词性标注等。这些步骤通常依赖一定的语言学常识,例如,不同语言间所使用的标点符号有所不同,英语在词之间有空格分隔,而汉语没有,需要做特殊的分词处理等。
传统TextRank是基于图的方法,由Mihalcea等人提出,该方法是谷歌搜索引擎PageRank方法的有效应用。TextRank将句子作为节点构建无向有权图,利用边权值迭代更新节点分数,然后选择得分靠前的句子组合为摘要。但是传统的TextRank算法在做文本摘要提取时需要计算句子间的相似性,它使用的是计数句子间相同单词的方法,忽略了词语语义、语法等要素,简单地当成是词语的集合,并且每个词语都是独立出现的,互相不依赖彼此之间出现与否。针对此类问题,本文提出了改进的基于TextRank和GloVe词向量的自动文本摘要算法。使用GloVe训练中文词向量,获取每个词的语义向量,采用基于词向量的高维词库映射计算句子之间的相似度,而取代基于相同词语共同出现的频率作为句子之间的影响权重。利用句子位置和标题的相似度共同作为句子之间权重的影响因子,以提取文本的摘要结果。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110195264.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隧道中心水沟模板
- 下一篇:一种工业防水连接器