[发明专利]基于主题相关性的推特摘要生成方法有效

专利信息
申请号: 202110151630.9 申请日: 2021-02-03
公开(公告)号: CN112883716B 公开(公告)日: 2022-05-03
发明(设计)人: 陈子忠;曹洋洋;夏书银 申请(专利权)人: 重庆邮电大学
主分类号: G06F40/216 分类号: G06F40/216;G06F40/284;G06Q50/00
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 李金蓉
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 主题 相关性 摘要 生成 方法
【权利要求书】:

1.基于主题相关性的推特摘要生成方法,其特征在于,包括以下步骤:

1)将原始数据进行预处理和数据清洗,获得推文集,提取推文的网络互动信息;

2)统计所述推文集中每个词集中出现的名词、动词、形容词词频,然后取词频排名在前1%的词作为候选主题词,过滤掉词频在其他主题中频率大于k的候选主题词作为最终的主题词集;

3)从上述主题中选出一个与源文本较为贴近的主题作为给定主题,根据主题词集计算推文到这个给定主题的相关性,推文到某个主题的相关性通过以下方法计算:

sim(a,b)=(a·bT)/(|a|·|b|)

s(w,ti)=sim(emb[ti],emb[w])ti∈Twords

F(w,T)=max|s(w,t1),s(w,t2),...,s(w,tn)|

其中sim函数用来计算两个词向量之间的余弦相似度,a,b分别表示两个词向量;sr为句子的长度正则项;L为当前句子中的名词动词形容词的集合,Li指第i个句子,m表示推文集中的最大推文量;s(w,ti)函数计算词w和词ti的相似度;F(w,T)为词w到主题T的隶属度;Twords为某个主题的主题词集;emb为将词id转为词向量的词嵌入模型;SST为一个句子到主题T的相关性度量,σ为可调的超参数,n表示源文本中的推文数量,L[i]表示L中的第i个词;

4)根据网络互动信息计算公众认同度,所述公众认同度按照以下公式计算:Ri=α·ci+β·rei+γ·li,其中,ci、rei、li分别为对第i条推文的点赞数、转发数、评论数的离差标准化处理后的值,α,β,γ是可调的超参数且满足α+β+γ=1,Ri表示第i条推文的公众认同度;

5)将公众认同度与主题相关性进行综合,得到最终的推文显著性,表示为:RankScore=ω·SST+(1-ω)·R,SST为一个句子到主题T的相关性度量,R为公众认同度,ω为超参数;

6)采用最大边际相关性算法进行去冗处理,输出摘要。

2.根据权利要求1所述基于主题相关性的推特摘要生成方法,其特征在于:步骤1)所述预处理包括:先对原始数据进行去稀疏化处理,统计所有推文中的名词词频,筛选出前n个话题型名词,作为热点话题词;然后通过先验主题词进行推文的筛选,若所有语料中的言论涉及所述n个话题或者其自带的话题标签涉及所述n个话题,则将此条言论归到其涉及的话题的类别之中,最终得到n个推文集,每个推文集涉及一个话题。

3.根据权利要求2所述基于主题相关性的推特摘要生成方法,其特征在于:步骤1)所述数据清洗包括,去除Hashtag、@、URL和推文末尾的数字,然后将推文中单词数量少于m的推文去除。

4.根据权利要求1或3所述基于主题相关性的推特摘要生成方法,其特征在于:所述提取推文的网络互动信息包括,通过正则表达式提取推文的点赞、转发和评论数量。

5.根据权利要求1所述基于主题相关性的推特摘要生成方法,其特征在于:所述词嵌入模型使用清洗后的数据集通过skip-gram模型训练得到。

6.根据权利要求1所述基于主题相关性的推特摘要生成方法,其特征在于:所述最大边际相关性算法进行去冗处理的具体步骤为:

1)初始化集合A表示用来存放摘要的集合,B表示按推文显著性分数排序后的推文集,xi表示第i条推文,n表示总的推文数量;

2)从集合B中取出第i个元素xi,若xi满足:

len(set(xi)∩set(s*))<k s*∈A

则将xi从B集合移动到A集合,否则将xi从B集合中删除;len函数用来计算xi和s*的集合的交集的词的个数,set函数用于集合元素去重;set(xi)表示对xi中的词进行去重后的词集,k表示词集的阈值;

3)重复步骤2直到或者A集合推文数量达到预期摘要长度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110151630.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top