[发明专利]一种文本集合中事件的重要度的计算方法无效
| 申请号: | 200910199576.4 | 申请日: | 2009-11-26 |
| 公开(公告)号: | CN101727437A | 公开(公告)日: | 2010-06-09 |
| 发明(设计)人: | 仲兆满;刘宗田;周文;刘炜;付剑锋 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06F17/21 | 分类号: | G06F17/21 |
| 代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 集合 事件 重要 计算方法 | ||
1.一种文本集合中事件的重要度的计算方法,其特征在于首先输入文本集合,从文本集合中识别出所有的事件,由该所有事件组成事件集合E;其次根据一个事件的发生导致另一个事件发生的概率计算两事件间的影响因子;接着依据两两事件间的影响因子构造事件影响因子矩阵;最后利用链接分析算法迭代计算事件影响因子矩阵中每个事件的重要度,具体步骤如下:
A、输入文本集合,从文本集合中识别出事件集合E;
B、计算事件集合E中的事件间的影响因子;
C、构造事件影响因子矩阵;
D、计算事件集合E中每个事件的重要度。
2.根据权利要求1所述的文本集合中事件的重要度的计算方法,其特征在于,上述步骤A中所述的从文本集合中得到事件集合E,其操作步骤如下:
A1、将文本集合经ICTCLAS分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1;
A2、从候选事件集合E1中删除主观感知、猜想、阐述等类似动词,得到候选事件集合E2;
A3、从候选事件集合E2中删除一部分抽象意义高的动词,并将与其一起出现的名词(n)添加到候选事件集合E2,最后得到的候选事件集合E3,即为所述文本集合的事件集合E。
3.根据权利要求2所述的文本集合中事件的重要度的计算方法,其特征在于,上述步骤B中所述的计算事件集合E中的事件间的影响因子,其事件ei对事件ej的影响因子的计算公式为:
其中,wij是事件ei对事件ej的影响因子;
M是所述的文本集合;
d是所述的文本集合M中的任意一篇文档;
Ndei是事件ei在文档d中出现的次数;
Fd(ei,ej)是事件ei出现的文档d,事件ej也同时在其中出现的次数,
如果wij>1,则令wij=1。
4.根据权利要求3所述的文本集合中事件的重要度的计算方法,其特征在于,上述步骤C中所述的构造事件影响因子矩阵,其事件影响因子矩阵为:
W=(wij)n×n
其中,n为事件集合E中事件的个数,1≤i,j≤n,wij表示事件ei对ej的影响因子。
5.根据权利要求4所述的文本集合中事件的重要度的计算方法,其特征在于,上述步骤D中所述的计算事件集合E中每个事件的重要度,其操作步骤如下:
D1、初始化事件集合E中每个事件的重要度
对事件集合E中的每个事件的重要度的初始化公式为:
其中,R(ei)是事件ei的重要度,n是事件集合E中事件的个数;
D2、初始化每个事件的Authorities值和Hubs值均为0
D3、计算每个事件的Authorities值
计算每个事件的Authorities值公式为:
其中,Si是事件ei的Authorities值,In(ei)表示对ei有影响的事件集合,R(ej)k-1是事件ej的第k-1次迭代时的重要度,wji是事件ej对事件ei的影响因子;
D4、计算每个事件的Hubs值
计算每个事件的Hubs值的公式为:
其中,So是事件ei的Hubs值,Out(ei)表示ei对其它有影响的事件集合R(eg)k-1是事件eg的第k-1次迭代时的重要度,wig是事件ei对事件eg的影响因子;
D5、计算每个事件的重要度
计算每个事件的重要度的公式为:
其中,R(ei)k是事件ei的第k次迭代时的重要度;d是一个阻尼系数,取值范围为0~1,通常取d=0.85;α、β是调节Authorities值和Hubs值的两个参数,α,β≥0,且α+β=1,如果α=0,就以Authorities值作为迭代计算的依据,演变成了类似于PageRank算法,如果β=0,就以Hubs值作为迭代计算的依据,类似于Reverse PageRank算法,为了综合考虑事件的Authorities值和Hubs值,通常取α=β=0.5;
D6、规范化每个事件的重要度
规范化每个事件的重要度的公式为:
其中,R(ei)k是事件ei的第k次迭代时的重要度;是所有事件的重要度之和。
D7、判断每个事件的重要度是否满足迭代收敛的精度
判断事件ei是否满足迭代收敛的精度ε,判断是否迭代收敛公式为:
|R(ei)k-R(ei)k-1|>ε
其中,R(ei)k是事件ei的第k次迭代时的重要度,R(ei)k-1是事件ei的第k-1次迭代时的重要度,ε是迭代收敛的精度要求,如果事件ei满足迭代收敛的精度ε,则文本集合中计算事件的重要度结束,如果事件ei不能满足迭代收敛的精度ε,则返回重新执行步骤202,如此循环直到满足迭代收敛的精度ε,计算事件的重要度结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910199576.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子运维流程的定制方法及系统
- 下一篇:数据库的仿真测试方法和系统





