[发明专利]基于多模态流形学习和社交网络特征的微博摘要生成方法有效
| 申请号: | 202011503521.0 | 申请日: | 2020-12-18 |
| 公开(公告)号: | CN112527964B | 公开(公告)日: | 2022-07-01 |
| 发明(设计)人: | 夏书银;曹洋洋;陈子忠 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34;G06F16/9536;G06Q50/00 |
| 代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多模态 流形 学习 社交 网络 特征 摘要 生成 方法 | ||
本发明公开了一种基于多模态流形学习和社交网络特征的微博摘要生成方法,包括以下步骤:获取用户的特定话题微博集,以及用户互动信息;构建文本内的关系矩阵和跨文本的关系矩阵;结合所述矩阵计算微博显著度;结合用户互动信息计算社会认同度;将微博显著度与社会认同度结合即可得到最终的微博显著度,进而选择显著度最高的若干句子成为摘要。本发明将多文档摘要中常用的流行学习方法进行改进,并将社交网络信息整合其中,其更好的利用了不同主题文档之间的句子关系特征和相同文档内的句子关系特征,同时采用最大边界相关算法(MMR)来减少冗余信息,兼顾了摘要的覆盖性和多样性。
技术领域
本发明涉及自然语言处理中的自动文本摘要技术,具体是基于多模态流形学习和社交网络特征自动生成微博言论的摘要。
背景技术
社交网路媒体的迅猛发展,如推特、微博等,给人们提供大量信息的同时也增加了获取有效信息的成本。这使得对海量微博信息进行压缩提要的微博摘要研究成为必要。目前微博摘要的其主要研究方法有:(1)基于传统的抽取式摘要方法:Sumbic,Textrank,Lexrank,Centriod,Data Reconstruction。(2)利用社交网络静态及动态数据:点赞数,微博转发回复数,用户影响力等对人们在某个话题下的讨论进行摘要。最新的研究方法大多将俩者进行结合的方法:其中一些是利用静态社交网络信息,如(Li et al.,2012)结合某条微博的转发数量和代表用户影响力的following-follower进行微博显著性计算。还有一些基于动态社交网络信息,如贺瑞芳等人考虑到人物的社交网络关系信息,提出了一种冗余度更低的社交网络摘要算法;(Duan Y et al.,2012)将静态和动态信息进行结合,基于微博发表时间对微博进行排序基于用户的影响力和言论的内容质量对其言论进行加权进行句子显著性计算。另外则是基于微博的时序性进行研究,如(Nichols et al.,2012)对于针对某个事件进行摘要,微博的时间戳可以作为一个特征探测事件发生的节点,一般在事件发生时posts数量变化曲线会出现峰值。
发明内容
现有的研究往往是根据某一时间内的热点主题,或者是某个事件进行摘要,当应用到用户言论摘要中,往往效果不是很理想,同时对于有些算法如数据重构的算法(DataReconstruction),存在复杂度过高的问题。本发明将多文档摘要中常用的流形学习方法进行改进,并将社交网络信息整合其中,其更好的利用了不同主题文档之间的句子关系特征和文档内句子关系特征,同时采用MMR来减少冗余信息,兼顾了摘要的覆盖性和多样性。
本发明采用的技术方案是:基于多模态流形学习和社交网络特征的微博摘要生成方法,包括以下步骤:
步骤一,获取用户的特定话题微博集,以及用户互动信息;
步骤二,构建单文档内的文本关系矩阵和跨文档间的文本关系矩阵;
步骤三,结合步骤二中的矩阵计算微博显著度;
步骤四,结合用户互动信息计算社会认同度;
步骤五,将微博显著度与社会认同度信息进行整合即可得到最终的微博显著度,考虑到冗余性,选择最大边界相关算法(MMR)策略下的微博显著性最高的若干句子成为摘要。
具体地,步骤一获取用户的特定话题微博集的步骤包括统计所有获取的微博文本中的名词词频,筛选出前n个话题型名词,作为热点话题词,然后通过先验主题词进行用户的筛选,若用户发表的言论涉及所述n个话题且超过k条,则将此类言论保留,之后将这个用户在每个类上的言论整合为一个样本。
在上述技术方案中,还包括对特定话题微博集进行清洗的步骤,具体为去除Hashtag、@、URL、微博末尾的数字,将微博中单词数量少于m的微博去除。
所述用户互动信息包括用户微博的点赞、转发和评论数量,通过正则表达式提取,如果提取不到则置为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011503521.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无传感器磁场定向控制节能方法
- 下一篇:一种耐温气囊密封垃圾隔断装置





