[发明专利]标题中核心产品词的识别方法以及装置有效
申请号: | 201611243898.0 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106649276B | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 车天博;高维国;陈海勇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 许蓓 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种标题中核心产品词的识别方法以及装置,涉及计算机技术领域。本发明中word2vec模型生成一个词的词向量时会参考该词在标题中前后相邻或相近的词,因此,同一个词在不同的语境中生成的词向量是不同的,同时,产品词的n‑gram特征中包含了该产品词在标题中前后相邻或相近的词,能够进一步表示该产品词所在的语境,因此,同一个词在不同的语境中得到的n‑gram特征也不同,进而n‑gram特征用词向量表达也不同,通过核心产品词识别模型进行识别的结果也不同,改善了标题中核心产品词识别的歧义问题,提高了准确率。 | ||
搜索关键词: | 标题 核心 产品 识别 方法 以及 装置 | ||
【主权项】:
1.一种标题中核心产品词的识别方法,其特征在于,包括:对待识别的标题进行分词;利用word2vec模型确定所述标题中各个分词的词向量;提取所述标题的各个分词中的产品词以及所述产品词在所述标题中前后连续预设个数的分词作为所述产品词的n‑gram特征;将所述标题中每个产品词的n‑gram特征所包含的各个分词的词向量输入核心产品词识别模型;根据所述核心产品词识别模型的输出结果确定所述标题的核心产品词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611243898.0/,转载请声明来源钻瓜专利网。
- 上一篇:基于词性信息和卷积神经网络的关系抽取方法
- 下一篇:一种词典录入方法及系统