[发明专利]一种分词词库更新方法及系统有效
| 申请号: | 201510715638.8 | 申请日: | 2015-10-28 |
| 公开(公告)号: | CN106649308B | 公开(公告)日: | 2020-05-01 |
| 发明(设计)人: | 杨睛龙;胡正才;周美芳;刘平华;李海平;曲晓园;高宝兵;陈国锐 | 申请(专利权)人: | 卓望数码技术(深圳)有限公司 |
| 主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F40/284 |
| 代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 李琴 |
| 地址: | 518057 广东省深圳市南山区高*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分词 词库 更新 方法 系统 | ||
本发明提供了一种分词词库更新系统,包括:日志采集模块、日志分析模块、分词评价模块以及分词校正与过滤模块,其中该分词校正和过滤模块包括构造子模块、切分子模块以及过滤子模块。本发明还提供了对应的方法。实施本发明的分词词库更新系统及方法,基于分词业务日志分析,通过对分词业务系统的分词效果进行评价,提取出分词效果不好的分词输入,根据使用参考概率表的Z分词过滤算法对分词效果不好的分词输入进行分词校正和过滤输出新词词组,并将该新词词组更新到分词词库中,不断完善分词词库,解决了分词词库不能适时且适应实际分词应用环境的问题,有效提高分词效果。
技术领域
本发明涉及数据处理技术领域,更具体地说,涉及一种分词词库更新方法及系统。
背景技术
在搜索系统中,分词效果的好坏是影响搜索效果的关键因素。而分词过程所依赖的词库,是分词技术的重要组成部分。
目前常见的词库生成方法是采用统计的方法:对输入语料中相邻共现的各个字的组合(即字组)的频度进行统计,计算其互现信息,其中,该互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,则可认为此字组可能构成了一个词。通过上述方法生成词库,再将词库应用与线上分词业务。
然而采用上述词频统计的方法生成的中文词库,存在的技术问题主要有:经常切分出一些共现频度高但并不是词的常用字组;大部分词库都是属于通用词库,不适合某些垂直搜索场景,比如商品名称搜索、地名搜索、人名搜索等;词库往往是静态的,线下生成再线上使用,不能快速根据实际使用情况进行更新和完善;词库对于新词的识别效果较差。
发明内容
本发明要解决的技术问题在于,针对现有的词频统计方法生成中文词库的上述缺陷,提供一种分词词库更新方法及系统。
本发明解决上述问题的技术方案是提供了一种分词词库更新系统,包括:
日志采集模块,用于采集分词业务系统在运行过程中输出的分词业务日志;
日志分析模块,用于对所述日志采集模块采集到的所述分词业务日志进行统计分析,并提取相关有效数据;
分词评价模块,用于根据评价规则对所述相关有效数据进行评价得到分词效果不好的分词输入;以及
分词校正与过滤模块,用于对所述分词评价模块所得到的所述分词效果不好的分词输入进行分词校正和过滤输出新词词组,并将该新词词组更新到分词词库中。
在上述分词词库更新系统中,所述分词业务系统包括搜索系统,所述相关有效数据包括搜索结果的订购次数或者浏览次数和/或搜索关键词的转换率和/或搜索结果的首页命中比例和/或搜索关键词的召回率和/或分词输入的分词结果;所述评价规则包括搜索关键词的转换率小于第一预设阈值和/或搜索结果个数小于第二预设阈值和/或使用量小于预设阈值和/或分词输入的分词结果大于第三预设阈值。
在上述分词词库更新系统中,所述分词校正与过滤模块包括构造子模块和切分子模块,其中:
所述构造子模块,用于扫描语料数据,并计算每个单词到下一个单词的概率来构造一参考概率表;
所述切分子模块,用于对所述分词效果不好的分词输入进行全切分得到基础分词词组。
在上述分词词库更新系统中,所述分词校正与过滤模块还包括过滤子模块,所述过滤子模块用于根据使用所述参考概率表的Z分词过滤算法对所述切分子模块全切分后得到的所述基础分词词组进行过滤得到所述新词词组,并将所述新词词组更新到分词词库中。
在上述分词词库更新系统中,所述过滤子模块包括:
扫描单元,用于扫描该基础分词词组并获取该基础分词词组中基础分词共有但未包含在该基础分词词组中的前向词列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卓望数码技术(深圳)有限公司,未经卓望数码技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510715638.8/2.html,转载请声明来源钻瓜专利网。





