[发明专利]变形词识别方法及装置在审
申请号: | 201611228749.7 | 申请日: | 2016-12-27 |
公开(公告)号: | CN106844508A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 刘燕辉 | 申请(专利权)人: | 北京五八信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司11205 | 代理人: | 杨贝贝,刘芳 |
地址: | 100083 北京市海淀区学清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 变形 识别 方法 装置 | ||
技术领域
本发明涉及计算机技术,尤其涉及一种变形词识别方法及装置。
背景技术
随着网络的发展,出现了越来越多的变形词。网络平台需要对输入的信息进行变形词识别,以防止由于部分用户使用恶意的变形词而造成的严重后果。
现有技术中,首先可以通过统计和规则的方法识别出实体词的变形词,进而,再通过分类或者标注的方法识别出变形词所对应的实体词,以用于后续的变形词识别。
但是,现有技术在识别变形词时,需要使用人工标注的语料,因此进行变形词识别的效率较低。
发明内容
本发明提供一种变形词识别方法及装置,用于解决现有技术中进行变形词识别效率较低的问题。
本发明第一方面提供一种变形词识别方法,包括:
获取新增的语料库;
从所述新增的语料库中识别至少一个新词;
分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度;
根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词。
进一步地,所述根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词,包括:
对所述至少一个新词按照所述新词与所述实体词的相似度进行排序;
根据所述至少一个新词的排序结果,确定所述新词是否为所述实体词的变形词。
进一步地,还包括:
将所述至少一个新词加入分词字典。
进一步地,所述从新增的语料库中识别至少一个新词,包括:
使用所述分词字典对所述新增的语料库进行分词;
根据分词结果从所述新增的语料库中识别至少一个新词。
进一步地,所述根据所述至少一个新词的排序结果,确定所述新词是否为所述实体词的变形词,包括:
如果,确定出第一新词的排序与从所述新增的语料库中识别出的新词数量的比值小于预设阈值,则就可以确定所述第一新词即为所述实体词的变形词;
其中,所述第一新词为从所述新增的语料库中识别出的至少一个新词中的任意一个新词。
本发明第二方面提供一种变形词识别装置,包括:
获取模块,用于获取新增的语料库;
识别模块,用于从所述新增的语料库中识别至少一个新词;
第一确定模块,用于分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度;
第二确定模块,用于根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词。
进一步地,所述第二确定模块包括:
排序单元,用于对所述至少一个新词按照所述新词与所述实体词的相似度进行排序;
确定单元,用于根据所述至少一个新词的排序结果,确定所述新词是否为所述实体词的变形词。
进一步地,还包括:
增加模块,用于将所述至少一个新词加入分词字典。
进一步地,所述识别模块包括:
分词单元,用于使用所述分词字典对所述新增的语料库进行分词;
识别单元,用于根据分词结果从所述新增的语料库中识别至少一个新词。
进一步地,所述确定单元具体用于:
若第一新词的排序与从所述新增的语料库中识别出的新词数量的比值小于预设阈值,则确定所述第一新词为所述实体词的变形词;
其中,所述第一新词为从所述新增的语料库中识别出的至少一个新词中的任意一个新词。
本发明所提供的变形词识别方法及装置,首先自动发现语料库中的新词,其次根据新词与实体词的相似度来识别变形词,从而实现自动发现可能的新的变形词,从而提升变形词识别的效率。并且,该方法根据新词与实体词的相似度来识别变形词,相比于现有技术人工识别变形词的方法,变形词识别的准确率也得到了较大提升。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的变形词识别方法实施例一的流程示意图;
图2为本发明提供的变形词识别方法实施例二的流程示意图;
图3为本发明提供的变形词识别方法实施例三的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京五八信息技术有限公司,未经北京五八信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611228749.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可以循环利用的蒸发器
- 下一篇:一种蒸馏装置