[发明专利]目标词的识别方法、装置、系统及存储介质在审
申请号: | 201710538781.3 | 申请日: | 2017-07-04 |
公开(公告)号: | CN109241392A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 易鸣;汤俊杰;崔志刚;贺宇凯;王峰;李刚 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 刘延喜;王增鑫 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标词 存储介质 分词结果 分类器 分词 判定 信息处理领域 方案实施 人工筛选 文本数据 线性分析 预设条件 最小粒度 准确率 预设 | ||
本发明涉及信息处理领域,特别涉及一种目标词的识别方法、装置、系统及存储介质。本发明一个实施例提供的一种目标词的识别方法,基于最小粒度的文本数据对获取的候选串进行分词划分,得到分词结果;计算所述分词结果中每个候选分词的至少一个指定特征值;将所述至少一个指定特征值输入预设分类器,得到该指定特征值所对应的候选串的判定值;将满足预设条件的判定值所对应的候选串设为目标词。本方案实施例通过计算候选串的至少一个特征值并结合分类器来识别目标词,相对于直接人为设定阈值及简单的线性分析方法,准确率与召回率有着大幅度提升,大量减少人工筛选成本,提高目标词的识别效率。
【技术领域】
本发明涉及信息处理领域,特别涉及一种目标词的识别方法、装置、系统及存储介质。
【背景技术】
近年来,随着互联网在全球范围内的快速发展,人们面临的信息呈指数增加。在人们所面临的信息中有大量的新词,如影视剧名、商品名、网络流行语等。因此,如何准确快速的自动发现新词就显得尤为重要。
现有的新词发现主要是基于规则的方法,其主要思想是根据新词的构词特征或外型特点建立规则库、专业词库或模式库,然后通过规则匹配发现新词。基于规则的方法主要缺点在于局限于某个领域,并且需要建立规则库等,且有着召回率不够的问题,已不能识别当前复杂的互联网环境下的目标新词。
【发明内容】
本发明的一个目的旨在解决上述至少一个问题,提供了一种目标词的识别方法、装置、系统及存储介质。
为实现该目的,本发明采用如下技术方案:
本发明的一个实施例提供了一种目标词的识别方法,其包括:
基于最小粒度的文本数据对获取的候选串进行分词划分,得到分词结果;
计算所述分词结果中每个候选分词的至少一个指定特征值;
将所述至少一个指定特征值输入预设分类器,得到该指定特征值所对应的候选串的判定值;
将满足预设条件的判定值所对应的候选串设为目标词。
具体的,所述基于最小粒度的文本数据对获取的候选串进行分词划分,得到分词结果的步骤,包括:
基于最小粒度的文本数据对获取的候选串进行分词划分,得到候选分词;
对至少一个所述候选分词进行组合,得到所述候选串对应的分词结果。
进一步的,所述指定特征值包括以下至少之一:
基础特征、统计类特征、关联系数类特征、上下文类特征。
具体的,所述基础特征包括以下至少之一:候选串查询次数、候选串分词模式、候选分词长度的最大值、候选分词的平均查询次数、候选串查询次数的比值。
具体的,所述统计类特征包括以下至少之一:紧密度、联合概率、条件概率、反条件概率、点互信息、二阶点互信息、对数似然比、归一化期望。
具体的,所述关联系数类特征包括以下至少之一:几率比、增值、杰卡德距离、辛普森距离。
具体的,所述上下文类特征包括以下至少之一:上下文熵、上下文多样性、左信息熵、右信息熵、左邻接多样性、右邻接多样性。
可选的,所述预设分类器包括有梯度渐进决策树分类器。
所述满足预设条件的判定值,包括:符合预设门限值范围的判定值,且所述预设门限值范围与所述至少一个指定特征值相对应。
进一步的,所述识别方法还包括通过搜索引擎基于预设提取规则定向获取候选串。
进一步的,所述识别方法还包括对所述候选串进行数据净化预处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710538781.3/2.html,转载请声明来源钻瓜专利网。