[发明专利]基于加权TextRank的多语言多文档摘要抽取方法在审

专利信息
申请号: 202110195264.7 申请日: 2021-02-20
公开(公告)号: CN112948543A 公开(公告)日: 2021-06-11
发明(设计)人: 唐彦;刘晓莹 申请(专利权)人: 河海大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/34;G06F40/211;G06F40/216;G06F40/289;G06F40/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 张华蒙
地址: 210024 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 加权 textrank 语言 文档 摘要 抽取 方法
【说明书】:

发明公开了基于加权TextRank的多语言多文档摘要抽取方法,属于摘要抽取技术领域,包括步骤:选择A类不同主题的文档集,每个文档集包含B篇中文文档和C篇英文文档,根据中英文进行不同预处理;使用GloVe模型训练词向量,使用维基中文语料训练得到词向量;采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置、和标题的相似度两个指标对句子加权;按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。该方法简单易行,应用前景广阔。

技术领域

本发明属于摘要抽取技术领域,具体涉及基于加权TextRank的多语言多文档摘要抽取方法。

背景技术

文本摘要(TextSummarization)是自然语言处理(NaturalLanguageProcessing)领域之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要,按照输入类型可分为单文档摘要和多文档摘要,其中单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要;按照输出类型可分为抽取式摘要和生成式摘要,抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文,生成式摘要根据原文,允许生成新的词语、短语来组成摘要。本发明主要研究内容是基于改进加权的TextRank多语言多文档抽取方法。

多语言多文档自动摘要(Multi-lingualMulti-documentSummarization,MMS)指的是给定多篇属于同一个主题的文档,从这多篇文档中抽取出一个摘要,要求生成的摘要在尽可能全面的总结多篇文档的核心思想的同时,需要保证摘要的简洁、精炼。多语言指的是摘要系统要同时面向两种以上语言,目前大多数的自动摘要面向的为中文和英文两种语言。

词向量(WordEmbedding),它将来自词汇表的单词或短语被映射成为稠密向量,并且对于相似的词,其对应的词向量也相近。2013年,由TomasMikolov领导的Google团队创建了word2vec,可以比以前的方法更快地训练向量空间模型。为了克服全局矩阵分解和局部上下文窗口的缺陷,在2014年,JeffreyPennington等人提出了一种新的GloVe方法,该方法基于全局词汇共现的统计信息来学习词向量,从而将统计信息与局部上下文窗口方法的优点都结合起来,加快模型的训练速度,又可以控制词的相对权重,更加灵活。实验证明当词向量用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。

预处理(Preprocessing)的主要任务是对原始的多语言多文档集进行此法、句法层面的初步处理,一方面减小后续步骤使用原始文档是的开销,另一方面使得语言差异对于后续步骤来说可控。常用的预处理步骤有文档合并、分句、分词、词性标注等。这些步骤通常依赖一定的语言学常识,例如,不同语言间所使用的标点符号有所不同,英语在词之间有空格分隔,而汉语没有,需要做特殊的分词处理等。

传统TextRank是基于图的方法,由Mihalcea等人提出,该方法是谷歌搜索引擎PageRank方法的有效应用。TextRank将句子作为节点构建无向有权图,利用边权值迭代更新节点分数,然后选择得分靠前的句子组合为摘要。但是传统的TextRank算法在做文本摘要提取时需要计算句子间的相似性,它使用的是计数句子间相同单词的方法,忽略了词语语义、语法等要素,简单地当成是词语的集合,并且每个词语都是独立出现的,互相不依赖彼此之间出现与否。针对此类问题,本文提出了改进的基于TextRank和GloVe词向量的自动文本摘要算法。使用GloVe训练中文词向量,获取每个词的语义向量,采用基于词向量的高维词库映射计算句子之间的相似度,而取代基于相同词语共同出现的频率作为句子之间的影响权重。利用句子位置和标题的相似度共同作为句子之间权重的影响因子,以提取文本的摘要结果。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110195264.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top