[发明专利]一种基于事件分析的Web新闻检索方法有效
申请号: | 201210519606.7 | 申请日: | 2012-11-29 |
公开(公告)号: | CN102982163A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 仲兆满;李存华;管燕 | 申请(专利权)人: | 淮海工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 刘喜莲 |
地址: | 222000 江苏省连云港市新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 事件 分析 web 新闻 检索 方法 | ||
1.一种基于事件分析的Web新闻检索方法,其特征在于,具体步骤如下:
A.在查询框中输入事件项Qe和约束项Qc两部分,得到查询项Q={Qe,Qc};
B.选取一篇Web新闻di的标题T、首段FP和末段LP三个部分表示di,di={T,FP,LP},其具体步骤如下:
B1.提取Web新闻HTML源码中的<title>和</title>两标签的中间部分作为di的标题T;
B2.提取Web新闻正文部分的第一段作为di的首段FP;
B3.提取Web新闻正文部分的最后一段作为di的末段LP,得到Web新闻的三个部分di={T,FP,LP};
C.计算di={T,FP,LP}中各个部分特征项的权重,其具体步骤如下:
C1.假设事件项Qe={a2},a2表示事件的动作要素,约束项Qc={t,l,o,a1},t,l,o,a1分别表示事件的时间、地点、对象及动作要素,它们在新闻di的T,FP,LP各个部分出现的次数记为一个矩阵,TF(a1,T)表示a1在T中出现的次数,其他类推,得到结果为:
C2.在事件的四要素中,动作要素是必不可少的,其他几个要素因不同的事件而有不同的差异,给事件动作要素赋以更高的权重,得到结果为:
其中,α>1,α表示权重系数;
C3.在新闻di的T,FP,LP三个项中,标题T中的特征项最为重要,FP,LP两项中的特征项的重要性认为相同;给标题T中出现的特征词赋以更高的权重,得到结果为:
其中,β>1,β表示权重系数;
D.设置查询项Q中特征项的权重为1;
E.计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大小降序排列输出检索结果,其具体步骤如下:
E1.计算事件查询项间的距离,以Web新闻di的FP项为例,将FP分词后,Qc={t,l,o,a1}和Qe={a2}在FP中出现的位置依次记为pos(t,FP)、pos(l,FP)、pos(o,FP)、pos(a1,FP)和pos(a2,FP);t与a1之间的距离记为dis(t,a1)=|pos(t,FP)-pos(a1,FP)|,t,l,o与a1的距离之和为
E2.如果同一个事件动作要素a在文本中多次出现,其他要素与其距离取最小值;
E3.Web新闻di的T,FP,LP三个部分中,事件查询项的距离之和为:
Dis(di)=Dis(T)+Dis(FP)+Dis(LP)
E4.由步骤C3可知,初始的查询项Q与文档di的相关度计算方法如下:
R′(Q,di)=TF(a1,T)×α×β+TF(a2,T)×α×β+TF(t,T)+TF(o,T)+TF(l,T)
+TF(a1,FP)×α+TF(a2,FP)×α+TF(t,FP)+TF(o,FP)+TF(l,FP)
+TF(a1,LP)×α+TF(a2,LP)×α+TF(t,LP)+TF(o,LP)+TF(l,LP)
E5.考虑到相关度与事件查询项之间的距离成反比,得到最终的查询项Q与文档di的相关度为:
E6.按照相似度R(Q,di)的大小降序排列输出检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210519606.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:活海鲜的运输箱
- 下一篇:一种雷电预警的方法和设备