[发明专利]一种识别目标词的方法、装置及系统有效
申请号: | 201010295054.7 | 申请日: | 2010-09-26 |
公开(公告)号: | CN102411563A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 孙海波;杨扬;陈一宁 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种识别目标词的方法、装置及系统,以利用多个特征值识别目标词,提高识别准确率和召回率。该方法包括:获取候选词集合以及特征计算数据,基于最小粒度的文本数据对特征计算数据进行分词划分,针对划分得到的分词进行分词组合,获得组合文本数据集合,确定候选词集合与组合文本数据集合的交集,计算交集中每个组合文本数据的指定特征值,按照筛选条件对交集中的组合文本数据进行筛选,将特征值符合筛选条件的组合文本数据对应的候选词确定为目标词。这样,可利用多个特征值识别目标词,通过分类算法获得筛选条件,避免了人为设定造成的误差,提高识别准确率和召回率。本申请同时公开了一种识别目标词的装置和系统。 | ||
搜索关键词: | 一种 识别 目标 方法 装置 系统 | ||
【主权项】:
一种识别目标词的方法,其特征在于,包括:获取候选词集合以及特征计算数据;基于最小粒度的文本数据对所述特征计算数据进行分词划分;针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合;确定所述候选词集合与所述组合文本数据集合的交集;计算所述交集中包含的每个组合文本数据的指定特征值;根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010295054.7/,转载请声明来源钻瓜专利网。