[发明专利]基于加权TextRank的多语言多文档摘要抽取方法在审

申请号：	202110195264.7	申请日：	2021-02-20
公开（公告）号：	CN112948543A	公开（公告）日：	2021-06-11
发明（设计）人：	唐彦;刘晓莹	申请（专利权）人：	河海大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/34;G06F40/211;G06F40/216;G06F40/289;G06F40/30
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	张华蒙
地址：	210024 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于加权 textrank 语言文档摘要抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，包括下列步骤：

步骤S1：选择A类不同主题的文档集，其中每个文档集包含B篇中文文档和C篇英文文档，进行预处理；

步骤S2：使用GloVe模型训练词向量，基于维基中文语料训练得到词向量；

步骤S3：采用词库映射方法，构建一个具有m个词的词库，将文本的语义信息映射到该词库中，利用词库映射句子语义得到句向量；

步骤S4：在句子之间构建TextRank模型，迭代计算句子权重，通过句子位置和标题的相似度两个指标对句子加权；

步骤S5：按照权重由大到小排序，选择权重前K的句子对应原文顺序作为输出，完成摘要抽取过程。

2.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，所述步骤S1进一步包括：

步骤S1-1：针对中文文档，根据标点符号分句，针对英文文档，根据点号分句，设定句子总数为len；得到句集合sentence＝[S₁，S₂，...，S_i，...，S_len]，1≤i≤len，其中S_i表示句集合的第i句话；

步骤S1-2：中文文档使用开源工具StanfordNLP进行分词，英文文档使用开源工具NLTK进行分词；

步骤S1-3：过滤掉文本中无意义的停用词得到每个句子的词集合W＝[w₁，w₂，w₃，...，w_i，...，w_m]，1≤i≤m，其中w_i表示句子S_i的第i个词语。

3.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，所述步骤S3进一步包括：

步骤S3-1：利用高维词库R表示文本向量，假设高维词库中共有m个词语，表示词向量的形式为R＝[r₁，r₂，r₃，...，r_i，...，r_m]，1≤i≤m，其中r_i表示高维词库中第i个词语的词向量；

步骤S3-2：设文本经过分词去掉特殊符号和停用词后，有n个词语，则使用词向量将文本表示为T＝[t₁，t₂，t₃，...，t_i，...，t_n]，1≤i≤n，其中t_i表示分词后文本中第i个词语的词向量。

4.根据权利要求3所述的基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，在所述的步骤S3-2之后进入步骤S3-3：将文本映射到高维词库中，

表示为

S＝

[max_1≤j≤n(similarity(r₁，t_j))，max_1≤j≤n(similarity(r₂，t_j))，...，max_1≤j≤n(similarity(r_m，t_j))]，其中t_j表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度，即similarity(r_i，t_j)＝cos(r_i，t_j)。

5.根据权利要求4所述的基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，所述步骤S4进一步包括：

步骤S4-1：通过计算句子的余弦相似度得到句子间相似度，也就是两个节点边的权重：w_ij＝similarity(S_i，S_j)＝cos(S_i，S_j)，其中w_ij表示句子S_i和S_j的句间相似度；

步骤S4-2：将Wij放入构建好的图模型中迭代计算，权重公式为

其中v_i表示第i个节点，in(v_i)表示指向v_i的节点集合，v_j表示图中第j个节点，out(v_j)表示从v_j指出的节点集合，v_k表示图中第k个节点，w_ij是步骤S4-1计算得到两节点之间的边权重，d表示阻尼系数，通常取0.85；开始迭代计算，设置收敛阈值为0.0001，模型收敛后得到每个句子权重；

步骤S4-3：计算句子位置，当句子处在文本首位或者最后一位时，需要提高句子Si的权重：

其中位于首句的句子将提升2单位的权重，位于末尾句子提升1单位权重，其他位置句子权重不变；

步骤S4-4：计算句子与标题的相似度，句子与文本标题的相似度越高，则句子的重要程度越高：W_t(S_i)＝similarity(S_i，S_t)，其中St表示文本标题的向量；S_i为映射到高维词库的句子词向量；similarity(S_i，S_t)表示采用余弦方式表示的句子S_i与标题S_t的相似度；W_t(S_i)表示句子S_i节点与标题相似度权重；

步骤S4-5：W_p、W_t两种权重影响因子归一化之后得到W′_p、W′_t；

步骤S4-6：更新原有句子权重w′_ij＝w_ij+W′_k(S_i，S_j)+W′_t(S_i，S_j)，将句子位置权重和标题相似度权重加进去提高原有句子权重；

步骤S4-7：得到权重最高的K个句子，按照原文顺序作为摘要输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110195264.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于加权TextRank的多语言多文档摘要抽取方法在审

专利文献下载