[发明专利]目标词的识别方法、装置、系统及存储介质在审

申请号：	201710538781.3	申请日：	2017-07-04
公开（公告）号：	CN109241392A	公开（公告）日：	2019-01-18
发明（设计）人：	易鸣;汤俊杰;崔志刚;贺宇凯;王峰;李刚	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F17/27
代理公司：	北京市立方律师事务所 11330	代理人：	刘延喜;王增鑫
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标词存储介质分词结果分类器分词判定信息处理领域方案实施人工筛选文本数据线性分析预设条件最小粒度准确率预设
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及信息处理领域，特别涉及一种目标词的识别方法、装置、系统及存储介质。本发明一个实施例提供的一种目标词的识别方法，基于最小粒度的文本数据对获取的候选串进行分词划分，得到分词结果；计算所述分词结果中每个候选分词的至少一个指定特征值；将所述至少一个指定特征值输入预设分类器，得到该指定特征值所对应的候选串的判定值；将满足预设条件的判定值所对应的候选串设为目标词。本方案实施例通过计算候选串的至少一个特征值并结合分类器来识别目标词，相对于直接人为设定阈值及简单的线性分析方法，准确率与召回率有着大幅度提升，大量减少人工筛选成本，提高目标词的识别效率。

【技术领域】

本发明涉及信息处理领域，特别涉及一种目标词的识别方法、装置、系统及存储介质。

【背景技术】

近年来，随着互联网在全球范围内的快速发展，人们面临的信息呈指数增加。在人们所面临的信息中有大量的新词，如影视剧名、商品名、网络流行语等。因此，如何准确快速的自动发现新词就显得尤为重要。

现有的新词发现主要是基于规则的方法，其主要思想是根据新词的构词特征或外型特点建立规则库、专业词库或模式库，然后通过规则匹配发现新词。基于规则的方法主要缺点在于局限于某个领域，并且需要建立规则库等，且有着召回率不够的问题，已不能识别当前复杂的互联网环境下的目标新词。

【发明内容】

本发明的一个目的旨在解决上述至少一个问题，提供了一种目标词的识别方法、装置、系统及存储介质。

为实现该目的，本发明采用如下技术方案：

本发明的一个实施例提供了一种目标词的识别方法，其包括：

基于最小粒度的文本数据对获取的候选串进行分词划分，得到分词结果；

计算所述分词结果中每个候选分词的至少一个指定特征值；

将所述至少一个指定特征值输入预设分类器，得到该指定特征值所对应的候选串的判定值；