[发明专利]一种多语种自动摘要的方法有效
申请号: | 201910093268.7 | 申请日: | 2019-01-30 |
公开(公告)号: | CN109829161B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 赵亚慧;易志伟;崔荣一;孟先艳;田明杰;徐凯斌;杨飞扬;王琪;黄政豪;金国哲;张振国;胡荣;王大千 | 申请(专利权)人: | 延边大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/216;G06F40/289;G06F40/284;G06F40/30;G06F40/258;G06N3/0442;G06N3/0455;G06N3/048;G06N3/084 |
代理公司: | 北京君泊知识产权代理有限公司 11496 | 代理人: | 王程远 |
地址: | 133000 吉林省延*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 自动 摘要 方法 | ||
1.一种多语种自动摘要的方法,其特征在于:包括整个自动摘要系统,所述的自动摘要系统分为模型训练模块、单文档摘要模块和多文档摘要模块,所述的模型训练模块分为文本预处理模块和训练模块,所述的单文档摘要模块分为文本预处理模块和摘要生成模块,所述的多文档摘要模块分为文本预处理模块、多语种句子聚类模块和摘要生成模块,其中,所述的模型训练模块中的模型为seq2seq神经网络模型,所述的模型训练模块下的文本预处理模块中的文本为训练文本且由“摘要-标题”对组成;
所述的自动摘要系统面向中、朝、英三种语言的科技文献,其中,对单个文本生成一个描述该文本大致内容的自然语言摘要,摘要语言与源文本语言一致;对包含中、朝、英三种语言的文本集生成一个描述这个文本集内容的自然语言摘要,摘要语言默认为中文;
所述的seq2seq神经网络模型采用编码端和解码端都是LSTM的结构。
2.根据权利要求1所述的多语种自动摘要的方法,其特征在于:所述的模型训练模块实现方法包括,
1)将中文的所有训练文本放在一起,分词后建立总的词表,并统计每一个词的词频,每一个词在词表中有一个唯一对应的id;
2)将词频过低的词舍去,并用“unk”来替代,构建语料库的词表;
3)将“unk”,“sos”,“eos”这三个词加到词表中;“sos”表示句子的开始,“eos”表示句子的结束,将摘要的末尾加上“eos”,将标题的开头加上“sos”,标题的末尾加上“eos”;
4)将训练文本中的所有词项转换成词表中相对应的id,词表中没有出现的词用“unk”的id来替换,构建原始“摘要-标题”对新的表示,新的表示为“数字序列-数字序列”,并交给训练模型,其中,训练文本处理模块的输入是原始训练集,输出是该训练集由词表id构成的新的表示;
5)训练模型用数字组成的“摘要-标题”对来训练,模型的输入端是“摘要”相对应的数字序列,模型的输出端是“标题”相对应的数字序列。
3.根据权利要求2所述的多语种自动摘要的方法,其特征在于:所述的单文档摘要模块实现方法为,
S1:文本的预处理模块先对文本进行分词,并去除停用词,在每一句结束的时候添加“eos”,构造句子序列,最后将每一个词用训练阶段的词表中相对应的id来表示,其中,模块的输入是原始文本,输出是由数字表示的句子序列;
S2:摘要生成模块先对原始文本进行抽取式摘要,抽取出重要的句子;
S3:然后,摘要生成模块将重要的句子的数字序列依次输入到模型,经模型处理后生成句子的摘要,得到文本的摘要,其中,模块的输入是抽取出的重要句子的数字序列,模块的输出是文本的摘要。
4.根据权利要求1所述的多语种自动摘要的方法,其特征在于:所述的多文档摘要模块实现方法为,
a1:在文本预处理模块中,先对文本进行分词,然后在每一个句子结束的时候添加“eos”,分词结束后,利用多语种词向量来构造每一个句子的句向量,其中,模块的输入是文本,输出是文本中句子的向量;
a2:在多语种句子聚类模块中,给定一个相似度阈值,对文本集中所有句子向量进行凝聚层次聚类,让语义上相近的多语种句子聚类到一起,其中,模块的输入是文本集中所有句子向量集合,输出是文本集中的句子聚类;
a3:在摘要生成模块中,首先从多语种句子聚类中抽出“代表性”句子,对这个句子生成摘要,并用此摘要代表这个聚类的主旨,对有中文句子的聚类使用中文句子的摘要代表这个聚类的主旨,对没有中文句子的聚类,根据该聚类中的朝文或者英文句子的词项,在多语种向量空间中找到与其最接近的中文词项,并给出这些中文的关键词项来代表这个聚类的主旨;
a4:摘要生成模块再对文本集中各个聚类的摘要进行筛选,最终生成文本集的摘要,其中,模块的输入是每个子文本集的句子聚类,输出是子文本集的摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于延边大学,未经延边大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910093268.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种陌生人社交活动评价方法与系统
- 下一篇:一种文本分词方法及装置