[发明专利]数字图书系统中的个性化自动文摘方法无效

专利信息
申请号: 201110213750.3 申请日: 2011-07-28
公开(公告)号: CN102222119A 公开(公告)日: 2011-10-19
发明(设计)人: 李庆;刘家芬;罗旭斌;张晨;胡川 申请(专利权)人: 成都希创掌中科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都天嘉专利事务所(普通合伙) 51211 代理人: 冉鹏程
地址: 610041 四川省成都市高新区*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数字 图书 系统 中的 个性化 自动 文摘 方法
【说明书】:

 

技术领域

本发明涉及信息处理技术领域,确切地说涉及一种数字图书系统中的个性化自动文摘方法。

背景技术

基于查询的自动文摘,即对于给定的文档,返回一个或者多个与查询相关的摘要信息,当一个文本集合建立好或者更新之后,自动将文档分为多个离散的摘要信息。

现在的自动文摘处理,一种方法是根据与当前文档相关的一些文档,预先估计摘要信息长度,有了文档摘要的大概长度之后,查找与查询最匹配的指定长度的信息片段作为文章摘要。

另一种方法是通过预处理,先把文档切分成一个或者多个语义信息块。语义信息块确定之后,匹配查询语句和语义信息块之间的关联度,选择与查询语句关联度最高的,并能覆盖文档主要信息的信息块作为文档摘要。

然而,第一种方法中摘要信息的长度很难预先确定;而第二种方法,通过预处理之后,固定了摘要信息的始末位置,而且文档预处理之后,如果文档的主要信息出现在几个不同的分割片段中,这种情况下提取的摘要信息对文档主要信息的覆盖率较低。比如,一篇文档可以被切分为多个没有重合的片段,但这样切分会有一个潜在的问题,当最佳文档摘要需要覆盖两个相邻片段的内容时,由于预处理分离了文档片段,自动提取的摘要信息不完整。

如公开号为CN 101231634,公开日为 2008年7月30日得中国专利文献公开了一种利用图划分方法来自动提取多文档文摘的方法,包括以下步骤:进行句子边界切分,把文档用切分出来的句子表示;将句子表示成向量,计算句子两两间的相似度构成句子关联矩阵,并按指定的阈值对关联矩阵进行约简,同时进行规范化处理;在多文档文摘中引入主题的隐性逻辑结构的挖掘,将文档集按主题划分成不同的隐性子主题,从而把文摘任务转化为对子主题的选取和抽取过程;利用图划分的方法,既从全局特性上保证句子所在子主题的重要度,又从局部特性上保证不同子主题之间内容的低冗余性,从而有效提高了文摘质量。

但以上述专利文献为代表的现有技术,仍然存在着如下技术问题:CN 101231634专利中按照句子计算权重向量,导致摘要信息按句子分割,这种情况下提取的摘要信息对文档主要信息的覆盖率较低。

发明内容

为解决上述技术问题,本发明提出了一种数字图书系统中的个性化自动文摘方法,采用本方法,能解决上述现有技术中所存在的“提取的摘要信息对文档主要信息的覆盖率较低”的技术问题,并且,不会固定摘要信息的长度,能灵活的获得摘要信息,在提取文档摘要时,能很好的判断出文档片段和查询的相关度,提取的摘要信息抗干扰能力强,并且采用本方法所获取的文章摘要,比用传统的摘要算法获得的文章摘要的准确率高。

本发明是通过采用下述技术方案实现的:

一种数字图书系统中的个性化自动文摘方法,其特征在于包括如下步骤:

a、输入查询信息,所述查询信息包括关键字和和用户的个性化信息;

b、根据所输入的查询信息建立相关模型和不相关模型,所述相关模型是指查询语句的自然语言模型的概率分布函数,用关键字查询数字图书系统,得到最前面的5-50篇文档;

所述的不相关模型是所述相关模型的补充概率分布函数,指数字图书系统中的所有文档集合;

因为在用整个文档集构建的语言模型 里面,查询相关的文档只有很小的值,而查询不相关占据了主要因素,所以可以用整个文档集合去构建不相关模型

c、 对需要得到摘要信息的文档中的每一个字, 计算所述字在相关模型和不相关模型下产生的概率,并用相关模型下的概率减去不相关模型下得概率作为所述字和查询信息的相关度;

d、将每个关键字的所述相关度保存到一个队列中,并对队列进行平滑处理;

e、选取所述队列中一组连续关键字相关度相加,相关度最高的文档片段做为一条文档摘要,将这条相关度最高的文档片段放入摘要数据集合中,并在所述队列中删除这条相关度最高的文档片段;

f 、根据阈值大小判断是否继续寻找下条文摘;

g 、如果需要,继续e步骤操作,如果不需要,就返回摘要数据集合中的所有文档作为摘要信息。

所述c步骤中,计算所述字在相关模型和不相关模型下产生的概率具体包括:所述字在不相关模型下产生的概率方法为:

在给定关键字                                                和整个文档集合的情况下,文档中出现关键字的次数用表示,而整个文档集合中的数量用表示,不相关模型中关键字产生的概率为:

所述字在相关模型下产生的概率方法的步骤包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都希创掌中科技有限公司,未经成都希创掌中科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110213750.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top