[发明专利]一种多语种自动摘要的方法有效

专利信息
申请号: 201910093268.7 申请日: 2019-01-30
公开(公告)号: CN109829161B 公开(公告)日: 2023-08-04
发明(设计)人: 赵亚慧;易志伟;崔荣一;孟先艳;田明杰;徐凯斌;杨飞扬;王琪;黄政豪;金国哲;张振国;胡荣;王大千 申请(专利权)人: 延边大学
主分类号: G06F16/34 分类号: G06F16/34;G06F16/35;G06F40/216;G06F40/289;G06F40/284;G06F40/30;G06F40/258;G06N3/0442;G06N3/0455;G06N3/048;G06N3/084
代理公司: 北京君泊知识产权代理有限公司 11496 代理人: 王程远
地址: 133000 吉林省延*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语种 自动 摘要 方法
【权利要求书】:

1.一种多语种自动摘要的方法,其特征在于:包括整个自动摘要系统,所述的自动摘要系统分为模型训练模块、单文档摘要模块和多文档摘要模块,所述的模型训练模块分为文本预处理模块和训练模块,所述的单文档摘要模块分为文本预处理模块和摘要生成模块,所述的多文档摘要模块分为文本预处理模块、多语种句子聚类模块和摘要生成模块,其中,所述的模型训练模块中的模型为seq2seq神经网络模型,所述的模型训练模块下的文本预处理模块中的文本为训练文本且由“摘要-标题”对组成;

所述的自动摘要系统面向中、朝、英三种语言的科技文献,其中,对单个文本生成一个描述该文本大致内容的自然语言摘要,摘要语言与源文本语言一致;对包含中、朝、英三种语言的文本集生成一个描述这个文本集内容的自然语言摘要,摘要语言默认为中文;

所述的seq2seq神经网络模型采用编码端和解码端都是LSTM的结构。

2.根据权利要求1所述的多语种自动摘要的方法,其特征在于:所述的模型训练模块实现方法包括,

1)将中文的所有训练文本放在一起,分词后建立总的词表,并统计每一个词的词频,每一个词在词表中有一个唯一对应的id;

2)将词频过低的词舍去,并用“unk”来替代,构建语料库的词表;

3)将“unk”,“sos”,“eos”这三个词加到词表中;“sos”表示句子的开始,“eos”表示句子的结束,将摘要的末尾加上“eos”,将标题的开头加上“sos”,标题的末尾加上“eos”;

4)将训练文本中的所有词项转换成词表中相对应的id,词表中没有出现的词用“unk”的id来替换,构建原始“摘要-标题”对新的表示,新的表示为“数字序列-数字序列”,并交给训练模型,其中,训练文本处理模块的输入是原始训练集,输出是该训练集由词表id构成的新的表示;

5)训练模型用数字组成的“摘要-标题”对来训练,模型的输入端是“摘要”相对应的数字序列,模型的输出端是“标题”相对应的数字序列。

3.根据权利要求2所述的多语种自动摘要的方法,其特征在于:所述的单文档摘要模块实现方法为,

S1:文本的预处理模块先对文本进行分词,并去除停用词,在每一句结束的时候添加“eos”,构造句子序列,最后将每一个词用训练阶段的词表中相对应的id来表示,其中,模块的输入是原始文本,输出是由数字表示的句子序列;

S2:摘要生成模块先对原始文本进行抽取式摘要,抽取出重要的句子;

S3:然后,摘要生成模块将重要的句子的数字序列依次输入到模型,经模型处理后生成句子的摘要,得到文本的摘要,其中,模块的输入是抽取出的重要句子的数字序列,模块的输出是文本的摘要。

4.根据权利要求1所述的多语种自动摘要的方法,其特征在于:所述的多文档摘要模块实现方法为,

a1:在文本预处理模块中,先对文本进行分词,然后在每一个句子结束的时候添加“eos”,分词结束后,利用多语种词向量来构造每一个句子的句向量,其中,模块的输入是文本,输出是文本中句子的向量;

a2:在多语种句子聚类模块中,给定一个相似度阈值,对文本集中所有句子向量进行凝聚层次聚类,让语义上相近的多语种句子聚类到一起,其中,模块的输入是文本集中所有句子向量集合,输出是文本集中的句子聚类;

a3:在摘要生成模块中,首先从多语种句子聚类中抽出“代表性”句子,对这个句子生成摘要,并用此摘要代表这个聚类的主旨,对有中文句子的聚类使用中文句子的摘要代表这个聚类的主旨,对没有中文句子的聚类,根据该聚类中的朝文或者英文句子的词项,在多语种向量空间中找到与其最接近的中文词项,并给出这些中文的关键词项来代表这个聚类的主旨;

a4:摘要生成模块再对文本集中各个聚类的摘要进行筛选,最终生成文本集的摘要,其中,模块的输入是每个子文本集的句子聚类,输出是子文本集的摘要。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于延边大学,未经延边大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910093268.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top