[发明专利]获取新词的方法和装置无效
| 申请号: | 200910083143.2 | 申请日: | 2009-05-04 |
| 公开(公告)号: | CN101539940A | 公开(公告)日: | 2009-09-23 |
| 发明(设计)人: | 郑亚斌;刘知远;孙茂松;茹立云;张扬 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 | 代理人: | 何文彬 |
| 地址: | 10008*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 获取 新词 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种获取新词的方法和装置。
背景技术
随着信息化技术的迅猛发展,互联网上的信息量呈现指数爆炸型增长趋势,大量的网络新词随之产生。通常在某些热门事件产生后,往往有不少与之相关的新词产生,并在人们的日常生活中持续一定的热度,例如“打酱油”、“俯卧撑”、“躲猫猫”等词。互联网上的新词往往呈现产生速度快,覆盖领域广的特点,如何获取这些新词,并使之服务于信息处理领域,成为一个迫切的需求和热门的研究方向。
为了能够获取新词,现有技术提供了如下两种方法:
第一种方法,利用搜索引擎统计侯选新词的频率信息,根据频率信息并结合基于分析侯选新词上下文的规则,从侯选新词中获取新词。
第二种方法,利用搜索引擎对侯选新词进行精确搜索和模糊搜索,获取搜索的结果,根据结果从侯选新词中获取新词。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
第一种方法,不能够获取专业领域的新词,具有局限性;获取长度较长的新词的准确性较低。
第二种方法,在搜索引擎中对每一个候选新词进行搜索,算法效率低,实用性差。
发明内容
为了能够获取专业领域的新词,准确地获取长度较长的新词,提高算法算法效率以及增加实用性,本发明实施例提供了一种获取新词的方法和装置。所述技术方案如下:
一种获取新词的方法,所述方法包括:
根据输入法词典和专业领域词典获取专业领域的专业用户;
根据所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;
根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;
将所述侯选新词与所述专业领域词典中的词进行比较,确定所述专业领域词典中不存在的侯选新词为新词。
所述根据输入法词典和专业领域词典获取专业领域的专业用户之前,还包括从所述专业领域词典去除噪音词的步骤,所述步骤包括:
根据所述输入法词典统计使用所述专业领域词典中的词的用户个数占所有用户的第一比例值;
去除所述专业领域词典中所述第一比例值小于第一阈值的词和所述第一比例值大于第二阈值的词,其中,所述第一阈值小于所述第二阈值。
根据输入法词典和专业领域词典获取专业领域的专业用户,包括:
根据输入法词典统计所述用户使用所述专业领域词典中的词的数量;
根据所述词的数量确定所述用户使用所述专业领域词典的词的第一频率值;
确定所述第一频率值超过第三阈值的用户为所述专业用户。
所述根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词,包括:
确定所述专业用户使用所述侯选词的第二频率值;
确定所述普通用户使用所述候选词的第三频率值;
根据所述第二频率值与所述第三频率值获取所述侯选词的第二比例值;
根据所述第二比例值从所述候选词中获取所述侯选新词。
所述根据所述第二比例值从所述侯选词中获取侯选新词包括:
对所述侯选词按所述第二比例值进行排序;
按照从大到小的顺序从所述排序后的候选词中获取前预设个数的候选词作为所述侯选新词,或确定所述第二比例值大于第四阈值的候选词作为所述侯选新词。
一种获取新词的装置,所述装置包括:
第一获取模块,用于根据输入法词典和专业领域词典获取专业领域的专业用户;
第二获取模块,用于根据所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;
第一确定模块,用于根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;
第二确定模块,用于将所述侯选新词与所述专业领域词典中的词进行比较,确定所述专业领域词典中不存在的侯选新词为新词。
所述装置还包括:
去除模块,用于根据所述输入法词典统计使用所述专业领域词典中的词的用户个数占所有用户的第一比例值;去除所述专业领域词典中所述第一比例值小于第一阈值的词和所述第一比例值大于第二阈值的词,其中,所述第一阈值小于所述第二阈值。
所述第一获取模块包括:
统计单元,用于根据所述输入法词典统计所述用户使用所述专业领域词典中的词的数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910083143.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据存取方法和装置
- 下一篇:一种相关反馈图像检索方法





