[发明专利]一种分词词典自动扩展的方法和装置在审

申请号：	201310660234.4	申请日：	2013-12-10
公开（公告）号：	CN103631938A	公开（公告）日：	2014-03-12
发明（设计）人：	罗晶;尹岩;严敏	申请（专利权）人：	江苏金智教育信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	江苏银创律师事务所 32242	代理人：	孙计良
地址：	211100 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分词词典自动扩展方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及分词器、网络爬虫、搜索引擎、词典等技术领域。

背景技术

中文分词是面向中文的搜索、文本分类、机器翻译、自动摘要生成等自然语言处理过程的基础，分词的准确率直接影响到后续处理过程的准确率甚至可行性，和用户体验紧密相连。虽然现有分词器如 ICTCLAS、Ansj，IKanalyzer、mmseg4j 等的算法各不相同，但分词过程的实现都依赖于词典。词典的规模、词汇的实时性和准确性对分词准确性影响极大。一方面，由于分词器内置词典的规模有限，且仅面向通用情况，难以有效支持如某些专业领域或每天都会有新词产生的各种网络应用。另一方面，分词器的内置词典难以或无法修改或扩展，部分分词器虽然支持用户自定义词典的使用，但自定义词的获得必须由用户自己完成，考虑到这一过程的复杂性和所需要的成本均非常可观，使得用户自定义词典的设置形同虚设，无法有效提升分词的准确率。

发明内容

本发明所要解决的问题是分词器词典不能实时支持新词的识别。

为解决上述问题，本发明采用的方案如下：

根据本发明的一种分词词典自动扩展的方法，该方法包括以下步骤：

S1，获取词汇资源文本；

S2，采用分词器对词汇资源文本处理后提取未能识别的单词组成候选词汇；

S3，统计候选词汇中每个单词在出现的频次；

S4，选择高频的单词加入至词典。

进一步，根据本发明的分词词典自动扩展的方法，该方法应用于搜索装置，该搜索装置包括搜索日志数据库，所述步骤S1包括：

S11，提取搜索日志数据库中的搜索文本。

进一步，根据本发明的分词词典自动扩展的方法，所述步骤S1还包括：

S12，通过网络爬虫从公共网站中抓取网页。