[发明专利]目标词的识别方法、装置、系统及存储介质在审
申请号: | 201710538781.3 | 申请日: | 2017-07-04 |
公开(公告)号: | CN109241392A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 易鸣;汤俊杰;崔志刚;贺宇凯;王峰;李刚 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 刘延喜;王增鑫 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标词 存储介质 分词结果 分类器 分词 判定 信息处理领域 方案实施 人工筛选 文本数据 线性分析 预设条件 最小粒度 准确率 预设 | ||
1.一种目标词的识别方法,其特征在于,包括:
基于最小粒度的文本数据对获取的候选串进行分词划分,得到分词结果;
计算所述分词结果中每个候选分词的至少一个指定特征值;
将所述至少一个指定特征值输入预设分类器,得到该指定特征值所对应的候选串的判定值;
将满足预设条件的判定值所对应的候选串设为目标词。
2.根据权利要求1所述的方法,其特征在于,所述基于最小粒度的文本数据对获取的候选串进行分词划分,得到分词结果的步骤,包括:
基于最小粒度的文本数据对获取的候选串进行分词划分,得到候选分词;
对至少一个所述候选分词进行组合,得到所述候选串对应的分词结果。
3.根据权利要求1所述的方法,其特征在于,所述指定特征值包括以下至少之一:
基础特征、统计类特征、关联系数类特征、上下文类特征。
4.根据权利要求3所述的方法,其特征在于,所述基础特征包括以下至少之一:候选串查询次数、候选串分词模式、候选分词长度的最大值、候选分词的平均查询次数、候选串查询次数的比值。
5.根据权利要求3所述的方法,其特征在于,所述统计类特征包括以下至少之一:紧密度、联合概率、条件概率、反条件概率、点互信息、二阶点互信息、对数似然比、归一化期望。
6.根据权利要求3所述的方法,其特征在于,所述关联系数类特征包括以下至少之一:几率比、增值、杰卡德距离、辛普森距离。
7.根据权利要求3所述的方法,其特征在于,所述上下文类特征包括以下至少之一:上下文熵、上下文多样性、左信息熵、右信息熵、左邻接多样性、右邻接多样性。
8.根据权利要求1所述的方法,其特征在于:所述预设分类器包括有梯度渐进决策树分类器。
9.根据权利要求1所述的方法,其特征在于,所述满足预设条件的判定值,包括:符合预设门限值范围的判定值,且所述预设门限值范围与所述至少一个指定特征值相对应。
10.根据权利要求1所述的方法,其特征在于,还包括:
通过搜索引擎基于预设提取规则定向获取候选串。
11.根据权利要求10所述方法,其特征在于,所述通过搜索引擎基于预设提取规则定向获取候选串的步骤之后,还包括:
对所述候选串进行数据净化预处理。
12.一种目标词的识别装置,其特征在于,包括:
分词模块,用于基于最小粒度的文本数据对获取的候选串进行分词划分,得到分词结果;
特征值计算模块,用于计算所述分词结果中每个候选分词的至少一个指定特征值;
判定值计算模块,用于将所述至少一个指定特征值输入预设分类器,得到该指定特征值所对应的候选串的判定值;
选择模块,用于将满足预设条件的判定值所对应的候选串设为目标词。
13.一种目标词的识别系统,其特征在于,包括:
目标词的识别装置,用于基于最小粒度的文本数据对获取的候选串进行分词划分,得到分词结果;计算所述分词结果中每个候选分词的至少一个指定特征值;将所述至少一个指定特征值输入预设分类器,得到该指定特征值所对应的候选串的判定值;将满足预设条件的判定值所对应的候选串设为目标词;
训练样本识别装置,用于向所述目标词的识别装置提供设置分类器的参数所需的训练样本词;
目标词收录装置,用于接收所述目标词的识别装置所识别出的目标词。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在系统执行权利要求1至11任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710538781.3/1.html,转载请声明来源钻瓜专利网。