[发明专利]一种文本集合中事件的重要度的计算方法无效
| 申请号: | 200910199576.4 | 申请日: | 2009-11-26 |
| 公开(公告)号: | CN101727437A | 公开(公告)日: | 2010-06-09 |
| 发明(设计)人: | 仲兆满;刘宗田;周文;刘炜;付剑锋 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06F17/21 | 分类号: | G06F17/21 |
| 代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 集合 事件 重要 计算方法 | ||
技术领域
本发明属于语言文字信息处理领域,具体地说是涉及一种文本集合中事件的重要度的计算方法。
背景技术
大量研究成果表明,事件在许多文本中是客观存在的,事件之间有着紧密的联系,不同的事件在文本中有不同的重要度。计算文本集合中的事件重要度,是文本信息处理的基础工作。基于文本中的重要事件,在自动问答领域,可以有针对性的抽取一些重要事件作为问题的答案;在自动文摘领域可以选择包含重要事件的句子作为文摘的单位;在信息检索领域,可以根据事件重要度的不同选择一些事件作为查询扩展的对象,事件重要度也可以作为扩展对象的权重设置的参考;在本体领域,可以为领域本体的构建推荐重要的事件,可以为领域本体的评价提供标准,等等。
计算文本集合中事件重要度的研究主要应用在自动文摘领域。普遍认为事件之间的关系是通过事件的要素而直接关联的,表现在文本中就是事件的同一要素出现在不同的事件中。例如有文章报道,其题目为:Extractive summarization using inter-and intra-eventrelevance(该文作者是:W.J.Li,M.L.Wu,and Q.Lu,发表于2006年出版的期刊:Proceedings of the 21st International Conference on Computational Linguistics andthe 44th annual meeting of the ACL)和文章Event-centric summary generation(该文作者是:L.Vanderwende,M.Banko,and A.Menezes,发表于2004年出版的期刊:Proceedingsof the DUC-2004 Workshop),该文公开了通过事件要素的关联,建立事件关系图,进而采用经典的PageRank算法计算事件的重要度的方法。已有方法存在的不足:(1)对每个事件提取其要素是一件非常困难的工作,目前的提取效果还是非常不理想的;(2)在很多情况下,事件间的关系并不是直接通过事件要素而关联的;(3)使用经典的PageRank算法计算事件的重要度并不是很合适的选择。因此,已有方法在文本集合中计算事件的重要度时难以自动实现,且准确率低。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明要解决的技术问题是提供一种文本集合中事件的重要度的计算方法,该方法可以自动实现、能够提高文本集合中事件的重要度计算的准确率。
为了解决上述问题,本发明采用下述技术方案:
一种文本集合中事件的重要度的计算方法,其特征在于利用事件间相互的影响关系计算文本集合中事件的重要度,首先输入文本集合,从文本集合中识别出所有的事件,由该所有事件组成事件集合E;其次根据一个事件的发生导致另一个事件发生的概率计算两事件间的影响因子;接着依据两两事件间的影响因子构造事件影响因子矩阵;最后利用链接分析算法迭代计算事件影响因子矩阵中每个事件的重要度,具体步骤如下:
A、输入文本集合,从文本集合中识别出事件集合E;
B、计算事件集合E中的事件间的影响因子;
C、构造事件影响因子矩阵;
D、计算事件集合E中每个事件的重要度。
上述步骤A中所述的从文本集合中得到事件集合E,其操作步骤如下:
A1、将文本集合经ICTCLAS分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1;
A2、从候选事件集合E1中删除主观感知、猜想、阐述等类似动词,得到候选事件集合E2;
A3、从候选事件集合E2中删除一部分抽象意义高的动词,并将与其一起出现的名词(n)添加到候选事件集合E2,最后得到的候选事件集合E3,即为所述文本集合的事件集合E。
上述步骤B中所述的计算事件集合E中的事件间的影响因子,其事件ei对事件ej的影响因子的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910199576.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子运维流程的定制方法及系统
- 下一篇:数据库的仿真测试方法和系统





