[发明专利]基于知识约束的两步式辟谣文本生成方法在审
| 申请号: | 202110918103.6 | 申请日: | 2021-08-11 |
| 公开(公告)号: | CN113627146A | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 曹冬林;朱多朵;李臣;林达真 | 申请(专利权)人: | 厦门大学 |
| 主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/211;G06F40/237;G06N5/02 |
| 代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森;戴深峻 |
| 地址: | 361005 福建*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 知识 约束 两步式 辟谣 文本 生成 方法 | ||
基于知识约束的两步式辟谣文本生成方法,涉及自然语言处理领域。针对辟谣文本对外部知识高度依赖以及辟谣长文本生成困难的问题,以谣言为研究对象,基于Transformer的多层解码器架构建立知识文本生成模型,利用知识三元组生成知识文本序列,同时采用pytorch版的GPT2‑ML模型建立辟谣结论生成模型,引入谣言约束和知识约束生成辟谣结论,将生成的知识文本序列和辟谣结论共同组成辟谣文本。两步式辟谣文本方法效果明显优于其他的生成方法,不仅缓解辟谣长文本生成困难的问题,还使生成的辟谣文本更具逻辑性。
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种基于知识约束的两步式辟谣文本生成方法。
背景技术
近年来,随着互联网以及信息技术的高速发展,网络已经成为当今社会最重要信息交流平台。根据“中国互联网络信息中心”发布的报告指出我国网民使用手机上网的比例达到99.3%,网络信息的时效性以及手机的便携性都极大地推动信息传播的效率。然而,随着社交媒体的高速发展,互联网也为谣言的滋生和传播提供丰富的沃土。
谣言广泛传播后给个人和企业带来的损失,摧毁社会信任体系。因此,谣言相关的研究工作具有很强的现实意义。目前,大多数学者对于谣言的研究主要集中在谣言的特征、谣言的传播模式和谣言的检测等方面,关于自动生成辟谣文本的研究非常有限。
现有的辟谣工作大多是基于人工的,而人工辟谣工作繁琐,需要消耗大量的人力物力,同时人工辟谣还存在时效性滞后的问题。辟谣文本生技术能够极大降低辟谣工作的人工成本和时间成本,是及时抑制谣言传播、有效降低谣言社会危害性的关键技术。
辟谣文本生成可以看作是自然语言生成的子任务,但它与其它文本生成任务又有所不同,辟谣文本生成任务不能简单地看作是端到端的生成任务,因为谣言本身携带的信息往往不足以支持辟谣文本的生成,即使是基于人工的辟谣方法,大多时候也需要借助常识或专业知识等外部信息,才能够完成辟谣工作。
外部知识的引入方法中,最常见的是通过知识图谱的方式来引入外部知识,知识图谱的基本组成单位是“实体-关系-实体”构成的三元组。在辟谣文本生成的任务中,假如在已有知识图谱的情况下,就能够获取辟谣相关的知识三元组链条,这些三元组知识链条可以用来支撑辟谣文本的生成。
辟谣文本生成主要存在以下几个难点:
(1)辟谣文本生成对外部知识高度依赖,谣言本身信息无法支撑辟谣文本的生成,即使是人工辟谣,往往也需要借助常识或专业知识等外部信息才能完成辟谣。
(2)对于长文本的生成,现有的文本生成方法只在开放性生成领域上表现良好,这其中还得益于解码搜索算法的随机性,而辟谣文本是具有逻辑性的辟谣说明,存在着长文本生成困难的问题。
发明内容
本发明的目的在于针对上述辟谣文本对外部知识高度依赖以及辟谣长文本生成困难等问题,提供可以增加辟谣文本的说服力又可以为完整的辟谣文本生成做支撑,使生成的辟谣文本更具逻辑性的一种基于知识约束的两步式辟谣文本生成方法。
本发明包括以下步骤:
1)处理数据,得到知识三元组;
2)将知识三元组序列传入知识文本生成模型,得到知识文本序列;
3)将知识文本序列和谣言文本序列传入辟谣结论生成模型,得到辟谣结论文本序列;
4)将谣言文本序列和知识三元组传入辟谣结论生成模型,得到一步式生成的辟谣文本;
5)将知识文本序列和辟谣结论文本序列共同作为两步式生成的辟谣文本。
在步骤1)中,所述处理数据,得到知识三元组,可利用哈工大开源的LTP模型,先利用LTP模型得到句法分析树,然后以谓词为中心抽取三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110918103.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:风险测试方法、装置及存储介质
- 下一篇:一种高性能铁路计轴电缆





