[发明专利]海量文本中旅游热点及其特征抽取方法及系统在审

申请号：	201611219439.9	申请日：	2016-12-26
公开（公告）号：	CN106776569A	公开（公告）日：	2017-05-31
发明（设计）人：	袁华;钱宇;徐华林;印如意	申请（专利权）人：	电子科技大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06Q50/14
代理公司：	四川省成都市天策商标专利事务所51213	代理人：	卞涛
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	海量文本旅游热点及其特征抽取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据挖掘领域，特别涉及一种海量文本中旅游热点及其特征抽取方法及系统。

背景技术

基于自然语言的文本中的话题挖掘一直是信息检索领域的热点研究方向，相关研究很多。几乎所有的研究都是围绕文本的基本组成元素－“词”展开的。考虑到不同的词在同一篇文档中的不同(语义)地位，以及作者在写作中用词的稀疏性和噪音。文档处理的首要工作就是识别出那些在表达语义上非常重要的词，即抽取出特征词。在特征词的基础上，可展开进一步的文档信息分析挖掘工作，如文本归类和话题总结。

在特征抽取方面，结合文本的构成及自然语言的特点，研究者首先考虑的是从特征词的词性、句法特征、文本模式等方面来解决特征抽取问题。为了提高计算结果的准确性，也有学者将其他智能算法的工作结合到文本特征抽取中来，例如文档频率、互信息、粗糙集策略、TF-IDF、信息增益、χ²统计，以及结合条件随机场模型等。在海量文本数据中，特征抽取过程自动化是一个提高效率的办法。有人提出了基于同义词拓展和pagerank算法相结合的方式自动抽取产品特征方法。还有人提出了一种基于无监督学习的产品特征自动抽取方法,该方法在电子产品领域的产品评论语料上取得了较好的实验效果。使用准确标注的种子词也是利用机器学习进行特征抽取的有效方法。

在话题发现方面，经典的研究基本思想是从词的角度出发，首先寻找合适的度量来表示词之间的关系，然后引入智能算法进行话题总结。在这一类研究中首先被考虑的是词语之间的语义关系，其中被重点使用的是共现词频关系(如TF-IDF和熵)与语义相似性(如，聚类算法和分类算法)以及它们的结合，如利用TF-IDF及文档增长率等因素抽取主题词，并根据主题词之间关系构建语义图，最后根据图连通性识别话题。在上述文本计算过程中，文档通常用一个向量空间模型(Vector Space Model)来表示，文档的词构成了向量的维度。在向量空间模型中，每个文档被看作是词空间中的一个向量。但是，用向量空间表示文档的结果是使得词汇在文档中出现的顺序信息丢失了。另外，该模型在理论上假设词汇之间具有统计独立性。这两项缺点导致在抽取出的特征词上进行话题总结时，受到词频和原始语义影响很大，容易忽略词在领域话题的信息。后来，人们逐渐认识到词语在文档中的出现并不完全是独立的，提出了考虑词语之间的位置分布关系的话题模型。这类话题模型的实现多为概率模型，对语料库的先验信息有要求。因而在处理写作模式较随意的UGC文档，容易受到噪音(如同义词、多义词，错别字)的干扰。

发明内容

【要解决的技术问题】

本发明的目的是提供一种海量文本中旅游热点及其特征抽取方法及系统，以有效的从大规模文本数据中抓取出领域的热点主题词及其局部特征。

【技术方案】

本发明是通过以下技术方案实现的。

本发明首先涉及一种海量文本中旅游热点及其特征抽取方法，其包括以下步骤：

A、文本预处理

从网络中抽取信息域相关的文档，并将这些文档内容进行预处理形成数据集；

B、热点话题词发现

通过给定的信息域内的专有词表，从所述数据集中挖掘出该信息域内的热点话题词集合；

C、热点话题特征抽取

基于热点话题词集合进行向量切分；分析候选特征词和热点话题词之间的依赖关系，得到热点话题词的局部特征。