[发明专利]标题中核心产品词的识别方法以及装置有效
申请号: | 201611243898.0 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106649276B | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 车天博;高维国;陈海勇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 许蓓 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标题 核心 产品 识别 方法 以及 装置 | ||
本发明公开了一种标题中核心产品词的识别方法以及装置,涉及计算机技术领域。本发明中word2vec模型生成一个词的词向量时会参考该词在标题中前后相邻或相近的词,因此,同一个词在不同的语境中生成的词向量是不同的,同时,产品词的n‑gram特征中包含了该产品词在标题中前后相邻或相近的词,能够进一步表示该产品词所在的语境,因此,同一个词在不同的语境中得到的n‑gram特征也不同,进而n‑gram特征用词向量表达也不同,通过核心产品词识别模型进行识别的结果也不同,改善了标题中核心产品词识别的歧义问题,提高了准确率。
技术领域
本发明涉及计算机技术领域,特别涉及一种标题中核心产品词的识别方法以及装置。
背景技术
句子成分分析是指采用各种方法标出句子基本成分。句子成分分析在是自然语言处理的基本问题之一,有着广泛的应用领域。电商标题成分分析是句子成分分析的一个分支领域,在意图识别、个性化排序等领域有着广泛应用。但由于标题是一系列词的堆砌(没有主语、谓语动词等成分),因此更加复杂。
标题中的核心产品词是指标题所涉及的具体的产品,例如,韩版休闲裤子男装中的核心产品词是裤子,识别标题中的核心产品词是电商领域中句子成分分析的一种主要的应用。现有的识别标题中的核心产品词通常采用基于词表的规则方法,维护一个映射的词表,例如:空调滤芯-空调,当这两个产品词均在标题中出现时,则认为空调滤芯作为核心产品词。
但是,利用词表分析标题中核心产品词的方法存在识别不准确的问题,例如,“小米”这个词,在不同的语境中有不同的含义:一个是品牌词“小米手机”,一个是产品词“小米粥”。单纯用词表,无法区分这两种含义,因此,造成核心产品词识别不准确。
发明内容
本发明所要解决的一个技术问题是:提供一种标题中核心产品词提取方案,能够提高核心产品词识别准确率。
根据本发明的一个方面,提供的一种标题中核心产品词的识别方法,包括:对待识别的标题进行分词;利用word2vec模型确定标题中各个分词的词向量;提取标题的各个分词中的产品词以及产品词在标题中前后连续预设个数的分词作为产品词的n-gram特征;将标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型;根据核心产品词识别模型的输出结果确定标题的核心产品词。
在一个实施例中,该方法还包括:提取标题中的品类标识作为产品词的作用域特征;将标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型包括:将标题中每个产品词的n-gram特征以及作用域特征所包含的各个分词的词向量输入核心产品词识别模型。
在一个实施例中,该方法还包括:提取标题中的修饰词、品牌词和产品词作为已确定n-gram特征的产品词的标题成分特征;将标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型包括:将标题中每个产品词的n-gram特征以及标题成分特征所包含的各个分词的词向量输入核心产品词识别模型。
在一个实施例中,该方法还包括:通过训练数据对核心产品词识别模型进行训练;其中,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和作用域特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和标题成分特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征、作用域特征和标题成分特征所包含的各个分词的词向量,其中,产品词的作用域特征是指标题中的品类标识,产品词的标题成分特征是指标题中的修饰词、品牌词和产品词。
在一个实施例中,标题中的核心产品词采用以下方法进行标注:根据用户搜索的产品词以及从搜索结果中选择的标题,记录被选择的标题以及用户搜索的产品词;将搜索次数最多的产品词标注为标题的核心产品词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611243898.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于词性信息和卷积神经网络的关系抽取方法
- 下一篇:一种词典录入方法及系统