[发明专利]一种基于网页文本的新词查找系统及方法在审

申请号：	201210276483.9	申请日：	2012-08-03
公开（公告）号：	CN103106227A	公开（公告）日：	2013-05-15
发明（设计）人：	杨青;张爱琦;崔世起	申请（专利权）人：	人民搜索网络股份公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京汇泽知识产权代理有限公司 11228	代理人：	刘淑敏
地址：	100020 北京市朝阳***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网页文本新词查找系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及互联网信息处理领域，尤其涉及一种基于网页文本的新词查找系统及方法。

背景技术

随着互联网的飞速发展，网络信息的发布和传播越来越快，网络新词语也随之层出不穷。根据中国语言文字工作委员会的专家所做的统计，自改革开放以来20年内平均每年产生800多个新词语，而近年来，网络的发达早已使新词的产生速度远远超过这一数字。新词的产生导致进行互联网信息处理时，对词语的切分、理解和信息检索的能力大大下降。因此如何有效地从海量的网络文本中发现新词，是互联网信息处理领域的一项重要工作。本发明中所称的“新词”，不仅包含传统语言学上的词语，还包括互联网上最新出现的广为传颂的短语。

目前的新词发现方法主要有基于统计和基于规则两类方法。基于统计的方法，首先利用统计模型，根据词语的特征信息获取候选串，再利用词频等信息过滤垃圾串，该方法依赖于语料库的完善，并且倾向于识别较短或高频的新词，识别新短语及低频词的能力较差。基于规则的方法，一般是根据新词的语言构词特征或构词模式特点建立规则库、领域词典或模式库，然后通过模式匹配发现新词，该方法需要专业领域知识及语言学基础，可移植性和可扩展性较差、更新速度较慢。

新词常常是对新事物或新事件的概述，在构成方面没有普遍统一的规律，常常不符合汉字的构词规则，并且新词产生速度快，覆盖范围广，语料收集工作较难同步。因此传统的基于统计和基于规则进行新词识别的方法已无法满足快速、准确地发现新词的需求。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于网页文本的新词查找系统及方法，克服现有技术中基于统计的方法中对语料库的要求较高、容易产生垃圾串，且常常由于数据稀疏导致无法识别出低频新词的不足，以及克服基于规则的方法依赖规则获取的有效性和完备性，无法满足新词快速更新的需求的缺陷。

本发明的目的还在于利用该基于网页文本的新词查找系统及方法，根据一段时间内词串出现频率的变化情况及词串的共现率，辅以过滤策略，不需构建语料库和特殊规则，即可简便易行地从网页文本中发现新词，以实现增量式新词发现，且新词一经发现，立即加入分词词库中，确保新词不被重复发现。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于网页文本的新词查找系统，主要包括网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块；其中：

网页文本选取模块，用于根据设置的定时新词发现的时间，定期从网页文本集合中获取定时间隔的这一段时间内的网页文本，并按照时间对选取的网页文本集合进行划分；

网页文本预处理模块，用于解析出网页文本的时间信息并保存，定义小说、影视类专名识别规则，识别出文本中的专名信息，并对网页文本进行分词处理。保存每个n-gram串、相应的频次、专名信息及网页时间；

新词发现模块，用于根据网页文本的分词结果和专名信息，通过单页面串频统计和多页面串频统计两个阶段来统计起始时间一致的相同n-gram串的频次；并利用前次和本次定时间隔内相同词串的平均每个页面的词频，计算前后两个定时间隔内该词串出现频次的变化率，选取变化率大的词串作为候选新词；并根据n-gram串中单个词的频次和n-gram串的频次计算候选新词的共现率，筛选掉共现率较低的词串；归并候选新词集合中相近频次的父子串；

新词生成模块，对候选新词集合进行过滤和剪枝，去除候选新词集合中的垃圾串，得到最终的新词集合。

其中，所述新词查找系统的新词生成模块，将最终新词集合导入分词词库中，实现增量式新词发现。

一种基于网页文本的新词查找方法，该方法包括：

A、选取网页文本的步骤；按照时间对网页库进行划分，根据指定的时间段，选择前后连个时间段的网页文本；

B、网页文本预处理的步骤；按设定时间段分类提取每个网页文本的信息，同一时间段的网页文本的时间均置为该时间段的起始时间；解析网页文本，根据专名在文本中的常见特征信息，定义小说、影视类专名识别规则，识别出文本中的专名信息；再使用分词工具对网页文本进行切分；

C、新词发现的实现步骤，包括进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并；

D、实现新词过滤和剪枝策略的步骤，对生成的候选新词集合进行过滤，以去除垃圾串。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司，未经人民搜索网络股份公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210276483.9/2.html，转载请声明来源钻瓜专利网。