[发明专利]一种基于事件分析的Web新闻检索方法有效
申请号: | 201210519606.7 | 申请日: | 2012-11-29 |
公开(公告)号: | CN102982163A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 仲兆满;李存华;管燕 | 申请(专利权)人: | 淮海工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 刘喜莲 |
地址: | 222000 江苏省连云港市新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 事件 分析 web 新闻 检索 方法 | ||
技术领域
本发明属于信息检索领域,具体地说是涉及一种基于事件分析的Web新闻检索方法。
背景技术
由于现实中的事件在互联网上都有明显的反映,互联网上存在着大量的面向事件的Web新闻报道。借助搜索引擎从互联网上获取事件相关信息已经是用户的迫切需求。但由于互联网上的信息急剧膨胀,通用搜索引擎返回的结果往往是信息量大、查询不准确。用户在输入某个关键字后,搜索到的有用信息并不多,对事件类信息的检索更是如此。
事件检索指针对用户输入的事件查询关键字,获取相关信息或者精准的答案。TDT与事件检索有着一定的联系,其主旨是基于事件对信息流进行组织和利用。其研究方向主要是未知话题的识别及已知话题的跟踪,话题跟踪经常提供若干篇新闻报道为种子,利用相关算法自动将后续相关新闻报道检测加入到已知话题中。
国内外关于事件检索的研究成果不多,与事件检索密切相关的工作主要有:在2012年加拿大出版的会议论文集:2012年北美计算语言学-人类语言技术会议(Proceedings of 2012Conference of the North American Chapterof the Association for Computational Linguistics:Human LanguageTechnologies),题目为:微博信息的结构化事件检索(Structured eventretrieval over microblog archives),作者是:D.Metzler,C.X.Cai,andE.Hovy,该文提出了微博上的结构事件检索方法,对于一个事件查询,返回的结果是历史事件的摘要排序,主要包括查询扩展及摘要生成两个核心步骤。在2010年德国出版的期刊:软计算(Soft Computing),题目为:面向历史事件检索的Web模糊时间信息推理(Reasoning about fuzzy temporalinformation from the web:towards retrieval of historical events),作者是:S.Steven,D.C.Martine,and E.K.Etienn,该文针对历史事件检索的时间约束,使用了简单的启发式技术支持从Web文档中获取事件的时间信息,提出使用模糊时间推理算法改善抽取时间的可靠性。在2003年中国出版的期刊:中文信息学报,题目为:基于事件框架的事件相关文档的智能检索研究,作者是:吴平博,陈群秀,马亮,该文以某事件的几篇报道为检索条件,在聚类的基础上手工对事件框架的侧面词进行整理,并将事件框架的知识用到事件相关文档的检索中。在2011年中国出版的期刊:华南理工大学学报(自然科学版),题目为:融合事件信息的复杂问句分析方法,作者是:刘小明,樊孝忠,刘里,该文提出一种融合事件信息的复杂问句分析方法,将事件视为由多个要素构成的复杂数据对象,利用事件抽取技术获取复杂问句中若干事件,用多个事件语义模型实例表征整个复杂问句的语义信息。
但已有的Web新闻检索方法没有分析查询内容中不同的查询项的作用,没能使用Web新闻的结构特征,没有考虑查询项之间的距离,因此,对一些事件类信息的检索结果的准确率不高,不能满足实际应用的需求。
发明内容
本发明所要解决的技术问题是针对现有技术存在的问题和不足,提供一种方法设计更为合理、可以有效地提高Web新闻检索的准确率的基于事件分析的Web新闻检索方法。
本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于事件分析的Web新闻检索方法,其具体步骤如下:
A.在查询框中输入事件项Qe和约束项Qc两部分,得到查询项Q={Qe,Qc};
B.选取一篇Web新闻di的标题T、首段FP和末段LP三个部分表示di,di={T,FP,LP},其具体步骤如下:
B1.提取Web新闻HTML源码中的<title>和</title>两标签的中间部分作为di的标题T;
B2.提取Web新闻正文部分的第一段作为di的首段FP;
B3.提取Web新闻正文部分的最后一段作为di的末段LP,得到Web新闻的三个部分di={T,FP,LP};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210519606.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:活海鲜的运输箱
- 下一篇:一种雷电预警的方法和设备