[发明专利]一种结合用户评论的司法舆情文本摘要方法有效
| 申请号: | 202011061155.8 | 申请日: | 2020-09-30 |
| 公开(公告)号: | CN112364225B | 公开(公告)日: | 2021-11-23 |
| 发明(设计)人: | 余正涛;黄于欣;相艳;于志强;郭军军 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F40/216;G06F40/284;G06F40/289;G06N3/04 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 用户 评论 司法 舆情 文本 摘要 方法 | ||
本发明涉及结合用户评论的司法舆情文本摘要方法。本发明首先利用基于双向长短期记忆网络的新闻正文编码器和用户评论编码器,分别对新闻正文和用户评论进行建模;然后构造双路选择门控去噪网络,对评论中的噪声信息进行去除,抽取评论中包含的案件要素;构造基于双向注意力机制的融合模块,对新闻评论和新闻正文进行融合,生成融合用户评论的上下文向量;最后利用基于单向长短期记忆网络的解码器逐词生成摘要。本发明能生成质量更高的文本摘要,为开展司法舆情文本摘要研究提供了可借鉴的方法,同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。
技术领域
本发明涉及一种结合用户评论的司法舆情文本摘要方法,属于自然语言处理技术领域。
背景技术
如何及时有效的引导和处置司法舆情,消除负面影响对于社会稳定至关重要。文本摘要任务能够为长的司法舆情新闻文档生成简短的、流畅的、阅读性好的文本摘要,有利于理解司法舆情新闻,为快速有效的舆情处置提供技术支撑。
发明内容
本发明提供了一种结合用户评论的司法舆情文本摘要方法,以用于解决传统序列到序列模型无法获得对新闻摘要至关重要的案件要素信息,生成摘要效果不理想的问题。
本发明的技术方案是:一种结合用户评论的司法舆情文本摘要方法,所述方法包括:
Step1、编码器分别对新闻正文和对应的新闻评论进行编码,得到新闻正文隐状态序列和对应的新闻评论隐状态序列;
Step2、基于得到的新闻正文和对应的新闻评论隐状态序列,利用双路选择门控去噪网络生成去噪新闻评论隐状态序列;
Step3、基于新闻正文隐状态序列和对应的去噪新闻评论隐状态序列,利用基于双向注意力的融合模块,生成融合用户评论的上下文向量;
Step4、利用注意力机制和单向长短期记忆网络进行解码,得到输出的摘要序列。
作为本发明的进一步方案,所述Step1中,编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的:
从互联网采集数据,对数据进行预处理,构造司法舆情新闻摘要数据集;所述司法舆情新闻摘要数据集的数据格式为:新闻正文-新闻评论-摘要。
作为本发明的进一步方案,获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下:
A、从互联网采集舆情数据并进行格式化处理,得到新闻正文、新闻评论和新闻标题,构造以新闻正文和新闻评论为输入、新闻标题为输出的数据集;
B、利用人工标注的方式,对得到的数据集进行标注,判断每条新闻是否属于司法舆情相关新闻,得到司法舆情新闻摘要数据集;
C、基于步骤A及B得到的司法舆情新闻数据集,进行数据预处理。
作为本发明的进一步方案,所述步骤C的具体步骤:
C1、过滤新闻正文少于10个字或者新闻标题少于5个字的噪声数据;
C2、过滤新闻评论少于5条的数据;
C3、正文和标题中所有数字以#替代;
C4、过滤正文和标题中的特殊字符;
C5、利用jieba对新闻正文和标题进行分词;
C6、构造词汇表;
C7、划分训练集、开发集和测试集。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、新闻正文编码器对输入的新闻文本序列进行编码,利用下式计算得到编码后的新闻正文隐状态序列其中N为新闻文本序列长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011061155.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于编码解码结构的轻量级舌体分割方法
- 下一篇:一种瞄准镜安装座





