[发明专利]基于特征信息的Blog自动摘要方法有效
申请号: | 201210193883.3 | 申请日: | 2012-06-13 |
公开(公告)号: | CN103246687A | 公开(公告)日: | 2013-08-14 |
发明(设计)人: | 赵朋朋;鲜学丰;陈明;刘全;崔志明 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 曹毅 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 信息 blog 自动 摘要 方法 | ||
技术领域
本发明涉及自动摘要领域,尤其涉及一种基于特征信息的Blog自动摘要方法。
背景技术
随着Web2.0的兴起,Blog这种新的信息传播和交互方式不断流行,其影响力也在日益扩大,在即时性与多样性方面已经超过传统媒体,给现实世界带来了巨大影响,越来越受到网民和企业界的重视。
面对巨大的Blog用户规模所带来的海量Blog信息,读者如何去查找和阅读自己感兴趣的内容就变成了一个难题。在自动摘要研究中,一方面更为多样化的表达方式和更为复杂的段落结构给面向Blog的自动摘要带来了挑战,但另一方面,由于Blog本身比传统网页增加了标签、评论等额外信息,也提供了生成更为准确的自动摘要的可能。传统搜索引擎基于截取式的摘要提供,往往不能准确反映文章内容的大意,而一个好的摘要能够让用户在不浏览详细内容的情况下快速地了解文章的大意,并迅速判断有无必要继续深入阅读,在如今这个信息爆炸的时代,这无疑具有十分重要的意义。
发明内容
针对现有摘要方法所存在的问题和不足,本发明的目的是提供一种基于特征信息的Blog自动摘要方法,从而提高摘要的准确率和用户阅读的阅读体验。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
基于特征信息的Blog自动摘要方法,包括以下步骤:
步骤1)基于特征信息的语句得分,其包括词条特征信息得分和语句特征信息得分;
(a)词条特征信息得分
利用分词工具对待处理的博文进行分词和词性标注,过滤掉数词、量词、介词等对句意表达不大的词,将预处理后得到的词条集合记为
;
然后综合考虑博文词频、图的描述信息、标题和标签等因素对WS中的词条进行打分,词条的综合得分公式如下:
;
(b)语句特征信息得分
所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
;
步骤2)基于潜在语义的评论关注得分
(a)找出原文中的每个句子被哪些评论所关注以及关注的程度;
(b)根据每个句子所得到的评论关注程度和评论价值,来确定该句子被关注的权重得分;
步骤3)摘要复选与合并
(a)初次摘要生成
经过上述两步处理后,每条语句最终的得分由特征得分和评论关注得分两部分组成,可以记为,并计算权值;
在得到博文内每条语句的权值后,首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n,然后将博文内的句子按权值进行排名,取出排名前n位的句子,即为初次生成的摘要,记为FA;
(b)二次摘要的抽取
将第一次抽取出的摘要句还原到原文,然后把没有包含摘要句的自然段落提取出来,组成候选自然段落集合CPS:;
假定CPS中某个自然段落,其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS,其后面包含摘要句的最相邻自然段落内的摘要句集合为NAS,分别计算和这两个集合的相似度;利用TF-IDF将PAS和量化成对应的向量、,直接以余弦相似度来衡量;
以同样的方式计算出NAS和的相似度;如果和中任意一个超过预先设定的阈值,则认为该段落是和其上下文表达的同一主题,并且已经通过上下文的摘要句得到表达,将其从CPS中移除;否则认为该段落是独立表达某个主题,需要从中抽取能够代表该主题的摘要句,即进行二次摘要抽取;
若某个候选自然段落需要进行二次摘要抽取,先根据其所包含句子数量和摘要的抽取比例确定所要抽取的摘要句数量。设r为抽取比例,为段落内的语句数,则抽取数量可表示为,即两者乘积后取下限值;因为这里需要抽取能够体现该段落主题的句子,故对于词频信息得分进行改进后重新给每个语句打分,改进后的词频打分公式如下:
其中为在该段落中出现的频率,PN为博文内的段落数目,为包含词条的段落数目;经过改进后,语句得分更能体现该段落的主题;然后将段落内的句子按得分排名,并取出前n位的句子,得到其对应段落的二次摘要句集合,记为;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210193883.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置