[发明专利]一种高效的文本区间热词查询方法有效
申请号: | 201710059191.2 | 申请日: | 2017-01-23 |
公开(公告)号: | CN106874430B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 赵志洲;路畅;何震瀛;王晓阳;韩伟力 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高效 文本 区间 查询 方法 | ||
本发明属于电子信息技术领域,具体为高效的文本区间热词查询方法。现有的热词提取算法一般面向挖掘任务,时间复杂度较高,难以直接应用于热词的在线查询处理。本发明方法包括两个阶段:利用时间序列划分和范围查询的思想,对原始文本数据
技术领域
本发明属于信息检索技术领域,具体涉及一种从文本数据中提取热词的方法。
背景技术
互联网的普及和高速发展满足了人们对信息获取的需求。如何从海量Web文本数据中提取有价值的热门话题成为人们关注的一个焦点问题。为了有效进行话题检测和跟踪(Topic detection and tracking,TDT),研究者开展了大量研究工作,其中从文本数据中提取热词成为当前研究的热点问题之一。
在已有的热词提取的研究中,TF-IDF(Term Frequency-Inverse DocumentFrequency)用于词权重计算,TF-IDF综合考虑词频和反文档频率,弱化频繁出现在多个文本中的词的重要性。TF-PDF(TF-Proportional Document Frequency)方法综合考虑词频和文档频率,将更高的权重赋予出现在多个文本中的词。Chen算法在TF-PDF方法的基础上,考虑词频随时间的波动情况,并重新定义词权重的计算方法。上述方法能够有效提取与话题相关的词,即满足算法的有效性,但时间复杂度较高,当处理的文本数量庞大时,这些算法的时间消耗较高,因此难以直接应用于热词在线查询问题。
为此,本发明对文本数据的区间热词在线查询问题展开研究。我们认为,热词的在线查询处理方法需要同时满足两个特性:(1)能够有效提取与话题相关的词,即在线查询的有效性;(2)能够快速获得查询时间范围内的热词,即在线查询的时效性。因此,设计同时满足有效性和时效性的热词在线查询方法依然是一个具有挑战性的问题。针对上述方法时效性不足的缺点,本发明提出一种对文本数据的区间热词在线查询处理算法(EHWE),该算法可以在已划分的数据上进行快速区间查询处理。与现有的面向挖掘的算法相比,EHWE算法能够保证计算结果准确率的前提下,根据用户指定的查询时间范围,降低提取热词的时间消耗,实现热词的在线查询。
发明内容
本发明的目的是针对从文本数据中提取热词复杂度高,难以在大数据集上实际应用的不足,提出一种高效的文本区间热词查询方法,以降低从文本数据中提取热词的复杂度,提升用户体验。
本方法提出的高效的文本区间热词查询方法,利用时间序列划分和范围查询的思想,对原始文本数据进行预处理,建立一种数据结构,并采用优化算法EHWE,使得从文本数据中提取热词的时间复杂度降低。主要贡献包括:
1、本文提出文本区间热词的在线查询处理问题,和面向挖掘的热词提取问题相比,更加关注在线查询的两个特性:有效性和时效性;
2、针对热词的在线查询问题,提出EHWE算法,该算法能够在保证计算结果准确率的前提下,降低了提取热词的时间复杂度;
3、理论分析已有算法和EHWE算法的时间复杂度,并在实际数据集上进行验证。
首先对一些基本概念进行定义:
定义1.话题:话题被定义为一个特定事件或活动,它通常由多个相关联的事件或活动组成和描述;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710059191.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种标准SQL转换成全文检索标准查询的方法
- 下一篇:一种外部数据检索装置