[发明专利]一种文本集合中事件的重要度的计算方法无效

申请号：	200910199576.4	申请日：	2009-11-26
公开（公告）号：	CN101727437A	公开（公告）日：	2010-06-09
发明（设计）人：	仲兆满;刘宗田;周文;刘炜;付剑锋	申请（专利权）人：	上海大学
主分类号：	G06F17/21	分类号：	G06F17/21
代理公司：	上海上大专利事务所(普通合伙) 31205	代理人：	陆聪明
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本集合事件重要计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本集合中事件的重要度的计算方法，其特征在于首先输入文本集合，从文本集合中识别出所有的事件，由该所有事件组成事件集合E；其次根据一个事件的发生导致另一个事件发生的概率计算两事件间的影响因子；接着依据两两事件间的影响因子构造事件影响因子矩阵；最后利用链接分析算法迭代计算事件影响因子矩阵中每个事件的重要度，具体步骤如下：

A、输入文本集合，从文本集合中识别出事件集合E；

B、计算事件集合E中的事件间的影响因子；

C、构造事件影响因子矩阵；

D、计算事件集合E中每个事件的重要度。

2.根据权利要求1所述的文本集合中事件的重要度的计算方法，其特征在于，上述步骤A中所述的从文本集合中得到事件集合E，其操作步骤如下：

A1、将文本集合经ICTCLAS分词后，依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1；

A2、从候选事件集合E1中删除主观感知、猜想、阐述等类似动词，得到候选事件集合E2；

A3、从候选事件集合E2中删除一部分抽象意义高的动词，并将与其一起出现的名词(n)添加到候选事件集合E2，最后得到的候选事件集合E3，即为所述文本集合的事件集合E。

3.根据权利要求2所述的文本集合中事件的重要度的计算方法，其特征在于，上述步骤B中所述的计算事件集合E中的事件间的影响因子，其事件e_i对事件e_j的影响因子的计算公式为：

wij=Σd∈MFd(ei,ej)Σd∈MNdei]]>

其中，w_ij是事件e_i对事件e_j的影响因子；

M是所述的文本集合；

d是所述的文本集合M中的任意一篇文档；

N_de_i是事件e_i在文档d中出现的次数；

F_d(e_i，e_j)是事件e_i出现的文档d，事件e_j也同时在其中出现的次数，

如果w_ij＞1，则令w_ij＝1。

4.根据权利要求3所述的文本集合中事件的重要度的计算方法，其特征在于，上述步骤C中所述的构造事件影响因子矩阵，其事件影响因子矩阵为：

W＝(w_ij)_n×n

其中，n为事件集合E中事件的个数，1≤i，j≤n，w_ij表示事件e_i对e_j的影响因子。

5.根据权利要求4所述的文本集合中事件的重要度的计算方法，其特征在于，上述步骤D中所述的计算事件集合E中每个事件的重要度，其操作步骤如下：

D1、初始化事件集合E中每个事件的重要度

对事件集合E中的每个事件的重要度的初始化公式为：

R(ei)=1n]]>

其中，R(e_i)是事件e_i的重要度，n是事件集合E中事件的个数；

D2、初始化每个事件的Authorities值和Hubs值均为0

D3、计算每个事件的Authorities值

计算每个事件的Authorities值公式为：

Si=Σj∈In(ei)R(ej)k-1×wji]]>

其中，S_i是事件e_i的Authorities值，In(e_i)表示对e_i有影响的事件集合，R(e_j)_k-1是事件e_j的第k-1次迭代时的重要度，w_ji是事件e_j对事件e_i的影响因子；

D4、计算每个事件的Hubs值

计算每个事件的Hubs值的公式为：

So=Σg∈Out(ei)R(eg)k-1×wig]]>

其中，S_o是事件e_i的Hubs值，Out(e_i)表示e_i对其它有影响的事件集合R(e_g)_k-1是事件e_g的第k-1次迭代时的重要度，w_ig是事件e_i对事件e_g的影响因子；

D5、计算每个事件的重要度

计算每个事件的重要度的公式为：

R(ei)k=R(ei)k-1+d×(α×Si+β×So)+1-dn]]>

其中，R(e_i)_k是事件e_i的第k次迭代时的重要度；d是一个阻尼系数，取值范围为0～1，通常取d＝0.85；α、β是调节Authorities值和Hubs值的两个参数，α，β≥0，且α+β＝1，如果α＝0，就以Authorities值作为迭代计算的依据，演变成了类似于PageRank算法，如果β＝0，就以Hubs值作为迭代计算的依据，类似于Reverse PageRank算法，为了综合考虑事件的Authorities值和Hubs值，通常取α＝β＝0.5；

D6、规范化每个事件的重要度

规范化每个事件的重要度的公式为：

R(ei)k=1Σi=1nR(ei)k×R(ei)k]]>

其中，R(e_i)_k是事件e_i的第k次迭代时的重要度；是所有事件的重要度之和。

D7、判断每个事件的重要度是否满足迭代收敛的精度

判断事件e_i是否满足迭代收敛的精度ε，判断是否迭代收敛公式为：

|R(e_i)_k-R(e_i)_k-1|＞ε

其中，R(e_i)_k是事件e_i的第k次迭代时的重要度，R(e_i)_k-1是事件e_i的第k-1次迭代时的重要度，ε是迭代收敛的精度要求，如果事件e_i满足迭代收敛的精度ε，则文本集合中计算事件的重要度结束，如果事件e_i不能满足迭代收敛的精度ε，则返回重新执行步骤202，如此循环直到满足迭代收敛的精度ε，计算事件的重要度结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910199576.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本集合中事件的重要度的计算方法无效

专利文献下载