[发明专利]基于特征信息的Blog自动摘要方法有效
申请号: | 201210193883.3 | 申请日: | 2012-06-13 |
公开(公告)号: | CN103246687A | 公开(公告)日: | 2013-08-14 |
发明(设计)人: | 赵朋朋;鲜学丰;陈明;刘全;崔志明 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 曹毅 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明在于公开了一种基于特征信息的Blog自动摘要方法,其步骤包括:基于特征信息的语句得分;基于潜在语义的评论关注得分;摘要复选与合并;经过如上处理后,即为本发明最终所得到的摘要句集合;该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余;本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题;本方法生成的摘要对读者更为友好,准确性更高。 | ||
搜索关键词: | 基于 特征 信息 blog 自动 摘要 方法 | ||
【主权项】:
1.基于特征信息的Blog自动摘要方法,其特征在于,包括以下步骤:步骤1)基于特征信息的语句得分,其包括词条特征信息得分和语句特征信息得分;(a)词条特征信息得分利用分词工具对待处理的博文进行分词和词性标注,过滤掉数词、量词、介词等对句意表达不大的词,将预处理后得到的词条集合记为
;然后综合考虑博文词频、图的描述信息、标题和标签等因素对WS中的词条进行打分,词条的综合得分公式如下:
;(b)语句特征信息得分所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
;步骤2)基于潜在语义的评论关注得分(a)找出原文中的每个句子被哪些评论所关注以及关注的程度;(b)根据每个句子所得到的评论关注程度和评论价值,来确定该句子被关注的权重得分;步骤3)摘要复选与合并 (a)初次摘要生成 经过上述两步处理后,每条语句最终的得分由特征得分和评论关注得分两部分组成,可以记为
,并计算权值;在得到博文内每条语句的权值后,首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n,然后将博文内的句子按权值进行排名,取出排名前n位的句子,即为初次生成的摘要,记为FA;(b)二次摘要的抽取把没有包含摘要句的自然段落提取出来,组成候选自然段落集合CPS:
;假定CPS中某个自然段落
,其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS(后面为NAS),分别计算
和这两个集合的相似度,直接以余弦相似度来衡量
;
以同样的方式计算出NAS和
的相似度
;如果
和
中任意一个超过预先设定的阈值,则认为已经通过上下文的摘要句得到表达,将其从CPS中移除;否则认为该段落是独立表达某个主题,需要进行二次摘要抽取;若某个候选自然段落
需要进行二次摘要抽取,设r为抽取比例,
为段落内的语句数,则抽取数量可表示为
;因为这里需要抽取能够体现该段落主题的句子,故对于词频信息得分进行改进后重新给每个语句打分:
其中
为
在该段落中出现的频率,PN为博文内的段落数目,
为包含词条
的段落数目;将段落内的句子按得分排名,并取出前n位的句子,得到其对应段落的二次摘要句集合,记为
;对CPS中的所有自然段落都进行如上一系列处理,将得到的所有段落的二次摘要句集合合并在一起,记为
;将在原文中连在一起的,并为表达同一主题服务的段落进行合并处理,得到最终的二次摘要句集合SA:
;(c)合并摘要句记二次摘要句集合SA中子集合的数量为w,同时用
表示对FA中删除语句的数量并初始化为0,则具体处理算法可描述如下:1) 计算FA中句子和句子之间的两两相似度,构造摘要句之间的相似度矩阵,该矩阵为一对称矩阵,记为:
2) 扫描相似度矩阵,找到矩阵中最大的值:
,其表示
和
为摘要句集合中最为相似的两句,保留权值较大的句子,将权值较小的句子从FA和矩阵中删除,同时删除句子数加1,即:
;3) 不断循环第二步,直到
,即删除的句子数量满足大于等于
;4) 检查矩阵中相似度最大的值看其是否已经满足小于指定的相似度阈值
,若没有则一直进行上述步骤直到满足此条件,否则终止,最终得到删除的句子数为
(
),以及删除后的初次摘要集合FA;5) 从SA中选择
句补充进FA,将SA中每个子集合中得分最高的一句加入FA,以保证每个主题都有代表句被选入最终的摘要中;对剩下的数量
,则按SA内各子集合的摘要句数量比进行分配,并按得分高低从每个子集合取出对应数量的句子加入到FA中;步骤4)经过如上处理后,FA即为本发明最终所得到的摘要句集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210193883.3/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置