[发明专利]一种基于事件分析的Web新闻检索方法有效

专利信息
申请号: 201210519606.7 申请日: 2012-11-29
公开(公告)号: CN102982163A 公开(公告)日: 2013-03-20
发明(设计)人: 仲兆满;李存华;管燕 申请(专利权)人: 淮海工学院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京众联专利代理有限公司 32206 代理人: 刘喜莲
地址: 222000 江苏省连云港市新*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 事件 分析 web 新闻 检索 方法
【权利要求书】:

1.一种基于事件分析的Web新闻检索方法,其特征在于,具体步骤如下:

A.在查询框中输入事件项Qe和约束项Qc两部分,得到查询项Q={Qe,Qc};

B.选取一篇Web新闻di的标题T、首段FP和末段LP三个部分表示di,di={T,FP,LP},其具体步骤如下:

B1.提取Web新闻HTML源码中的<title>和</title>两标签的中间部分作为di的标题T;

B2.提取Web新闻正文部分的第一段作为di的首段FP;

B3.提取Web新闻正文部分的最后一段作为di的末段LP,得到Web新闻的三个部分di={T,FP,LP};

C.计算di={T,FP,LP}中各个部分特征项的权重,其具体步骤如下:

C1.假设事件项Qe={a2},a2表示事件的动作要素,约束项Qc={t,l,o,a1},t,l,o,a1分别表示事件的时间、地点、对象及动作要素,它们在新闻di的T,FP,LP各个部分出现的次数记为一个矩阵,TF(a1,T)表示a1在T中出现的次数,其他类推,得到结果为:

TF(a1,T)TF(a1,FP)TF(a1,LP)TF(a2,T)TF(a2,FP)TF(a2,LP)TF(t,T)TF(t,FP)TF(t,LP)TF(o,T)TF(o,FP)TF(o,LP)TF(l,T)TF(l,FP)TF(l,LP)]]>

C2.在事件的四要素中,动作要素是必不可少的,其他几个要素因不同的事件而有不同的差异,给事件动作要素赋以更高的权重,得到结果为:

[α,α,1,1,1]×TF(a1,T)TF(a1,FP)TF(a1,LP)TF(a2,T)TF(a2,FP)TF(a2,LP)TF(t,T)TF(t,FP)TF(t,LP)TF(o,T)TF(o,FP)TF(o,LP)TF(l,T)TF(l,FP)TF(l,LP)]]>

其中,α>1,α表示权重系数;

C3.在新闻di的T,FP,LP三个项中,标题T中的特征项最为重要,FP,LP两项中的特征项的重要性认为相同;给标题T中出现的特征词赋以更高的权重,得到结果为:

[α,α,1,1,1]×TF(a1,T)TF(a1,FP)TF(a1,LP)TF(a2,T)TF(a2,FP)TF(a2,LP)TF(t,T)TF(t,FP)TF(t,LP)TF(o,T)TF(o,FP)TF(o,LP)TF(l,T)TF(l,FP)TF(l,LP)×β11]]>

其中,β>1,β表示权重系数;

D.设置查询项Q中特征项的权重为1;

E.计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大小降序排列输出检索结果,其具体步骤如下:

E1.计算事件查询项间的距离,以Web新闻di的FP项为例,将FP分词后,Qc={t,l,o,a1}和Qe={a2}在FP中出现的位置依次记为pos(t,FP)、pos(l,FP)、pos(o,FP)、pos(a1,FP)和pos(a2,FP);t与a1之间的距离记为dis(t,a1)=|pos(t,FP)-pos(a1,FP)|,t,l,o与a1的距离之和为Σx{t,l,o}|pos(x,FP)-pos(a1,FP)|,]]>a1与a2的距离为:dis(a1,a2)=|pos(a1,FP)-pos(a2,FP)|,那么FP中,t,l,o,a1与a2的距离之为:

Dis(FP)=Σx{t,l,o}|pos(x,FP)-pos(a1,FP)|+|pos(a1,FP)-pos(a2,FP)|]]>

E2.如果同一个事件动作要素a在文本中多次出现,其他要素与其距离取最小值;

E3.Web新闻di的T,FP,LP三个部分中,事件查询项的距离之和为:

Dis(di)=Dis(T)+Dis(FP)+Dis(LP)

E4.由步骤C3可知,初始的查询项Q与文档di的相关度计算方法如下:

R′(Q,di)=TF(a1,T)×α×β+TF(a2,T)×α×β+TF(t,T)+TF(o,T)+TF(l,T)

+TF(a1,FP)×α+TF(a2,FP)×α+TF(t,FP)+TF(o,FP)+TF(l,FP)

+TF(a1,LP)×α+TF(a2,LP)×α+TF(t,LP)+TF(o,LP)+TF(l,LP)

E5.考虑到相关度与事件查询项之间的距离成反比,得到最终的查询项Q与文档di的相关度为:

R(Q,di)=R(Q,di)×1log2Dis(di)]]>

E6.按照相似度R(Q,di)的大小降序排列输出检索结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210519606.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top