[发明专利]基于主题相关性的推特摘要生成方法有效
申请号: | 202110151630.9 | 申请日: | 2021-02-03 |
公开(公告)号: | CN112883716B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 陈子忠;曹洋洋;夏书银 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06Q50/00 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 相关性 摘要 生成 方法 | ||
本发明公开了基于主题相关性的推特摘要生成方法,包括通过名词在每个主题的分布建立每个主题的词库;通过每个主题特有的主题词库和训练得到的词向量模型,计算一条推文和某个主题的相关性;根据网络互动信息计算公众认同度;将公众认同度与主题相关性进行综合,得到最终的推文显著性;采用最大边际相关性算法进行去冗处理,输出摘要。本方法从主题相关性和推文显著度来选择推文作为摘要,并对最终摘要的冗余度进行控制,使得生成的推文摘要综合考虑了摘要主题,多样性,以及社会认同性。从而得到了主题相关性更高,新颖性和总结性更好的摘要。
技术领域
技术领域涉及自然语言处理中的文本摘要技术,用于自动生成推特言论的主题摘要。具体地,给定特定的主题和若干条推文文本,得到和这个主题相关的摘要。
背景技术
随着社交网络媒体,自媒体的迅猛发展,催生了对海量数据进行总结提要的摘要研究。由于社交网络数据无大规模的公开数据集,目前对于社交网络数据的摘要研究大多为传统的无监督方法。基于统计特征的方法,主要根据句子的相对位置,词频特征等进行研究,此类方法易于实现,但得到的特征往往相对简单;基于图模型的方法,此类方法将文本中句子看作节点,文本之间的相似度分数看作节点之间的边,基于节点以及节点之间的权值计算每个节点的显著性,选出显著性高的句子作为摘要;基于数据重构的方法,将文本转化为二维矩阵,通过矩阵重构的方法找到可以最大化重构源文本的n条句子作为摘要。近年来推特摘要的研究大多结合了社交网络静态和动态数据,但仍然是以传统的方法作为基础算法进行研究。
现有的推特摘要研究其往往针对某个主题或某个事件下的言论进行摘要,鲜有人研究给定主题的摘要。并且现有的自动文摘方法没有利用到大规模社交网络数据的共性特征。
发明内容
针对现有摘要生成方法中没有引入特定主题和社交网络数据的问题,本发明基于统计学建立了不同主题的大规模主社交网络数据,进而设计了一种基于主题词库的摘要生成方法。
为了实现上述目的本发明采用的技术方案是,基于主题相关性的推特摘要生成方法,包括以下步骤:
1)将原始数据进行预处理和数据清洗,获得推文集,提取推文的网络互动信息。
2)统计所述推文集中每个词集中出现的名词、动词、形容词词频,然后取词频排名在前1%的词作为候选主题词,过滤掉词频在其他主题中频率大于k的候选主题词作为最终的主题词集。
3)从上述主题中选出一个与源文本较为贴近的主题作为给定主题,根据主题词集计算推文到这个给定主题的相关性。
4)根据网络互动信息计算公众认同度。
5)将公众认同度与主题相关性进行综合,得到最终的推文显著性,表示为:RankScore=ω·SST+(1-ω)·R,SST为一个句子到主题T的相关性度量,R为公众认同度,ω为超参数。
6)采用最大边际相关性算法进行去冗处理,输出摘要。
采用上述技术方案,本发明包括以下有益技术效果:
本发明针对推特平台数据具有的主题性以及数据稀疏性特点提出了一种新的主题相关性的度量方法,首先通过名词在每个主题的分布建立每个主题的词库。通过每个主题特有的主题词库和训练得到的词向量模型,可以计算一条推文和某个主题的相关性,从而筛选出更贴近目标主题的摘要。
本发明通过对每个主题的词库的建立,更好的考虑了不同主题的言论的区分性以及更好的考虑到了整体数据集的分布。
本发明采用一种新的最大边际相关性算法来减少冗余信息,兼顾了摘要的覆盖性和多样性。从而得到了信息总结性更好,内容更新颖性更好的摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110151630.9/2.html,转载请声明来源钻瓜专利网。