[发明专利]一种对电商产品评论词汇的歧义消除方法及装置有效
申请号: | 201710473766.5 | 申请日: | 2017-06-21 |
公开(公告)号: | CN107526721B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 谷云松;黄侃;于英 | 申请(专利权)人: | 深圳美云智数科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/253;G06F16/30 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 528311 广东省佛山市顺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 产品 评论 词汇 歧义 消除 方法 装置 | ||
本公开揭示了一种对电商产品评论的词义消歧方法及装置,该方法包括:获取历史评论文本,从中提取历史特征词和与之搭配的历史情感词;根据历史特征词与之对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;根据最频繁出现的历史特征词和历史情感词组合生成历史特征词的义项标注;获取新评论文本,从中提取新特征词和对应的新情感词组合;根据新特征词和新情感词组合,查询与新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为新特征词的词义。该技术方案实现了对产品评论词汇的词义分析和义项确定,从而在不同的评论上下文中准确判断出现在该语境的产品特征词的准确释义。
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种对产品评论词汇的歧义消除方法及装置。
背景技术
一词多义是自然语言固有的特征。在用计算机做自然语言处理时,这种多义性给分析结果带来很大影响。研究发现,词项的具体涵义主要取决于上下文,即单词出现的语境是决定词义的要素。
基于统计学习的词义消歧技术以语料库为知识源,从标注或未标注语料中学习各种不同的词义特征。通过计算给定文本中词汇在上下文中的概率权重,选择具有最大概率权重的词义作为最佳结果输出,如贝叶斯分类器、最大熵分类法等。统计方法又分为有指导和无指导的两类。有指导的词义消歧模型需要事先对训练语料进行词义标注,而无指导的方法没有此要求。当前主流的机器学习方法,如决策树(Decision Tree)、支持向量机(Support Vector Machine,SVM)、最大熵(Maximum Entropy,ME)都可以用于统计词义消歧。下面以贝叶斯为例具体说明:
贝叶斯消歧方法将词语序列的上下文看作是一个无结构词集,通过对上下文窗口中众多词汇信息的整合来消除歧义。具体步骤是:首先需要一个语料库,在这个样本训练集中每个歧义词的出现都标记好其正确的语义,为消歧提供了一个统计分类的实例;然后构建分类器,根据上下文对新的歧义词进行分类,算法是:设以词w为中心的窗口大小为n,这个窗口中的词可表示成w1,w2,...w1/2,...wn-1的形式;同时设歧义词w有L个语义项S1...Sl...SL,则贝叶斯法选取使P(w/s1w1...wn-1)(l=1...L)取最大值时词义Sl(l=1...L)为歧义词的最终语义。
电商平台的评论分析是广大消费者自有发言的公共区域,具有言论不规范、随机性大、主题发散等特点。这种不规范的语言环境给词义分析带来新的挑战,使得传统基于上下文相关的统计机器学习方法无法准确进行词义分析。
发明内容
为了解决相关技术中存在电商产品评论词汇的随机性大,词义判定不够准确问题,本公开提供了一种对产品评论词汇的词义消歧方法。
一方面,本公开提供了一种对产品评论词汇的歧义消除方法,该方法包括:
获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词;
根据所述历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;
根据最频繁出现的历史特征词和历史情感词组合生成所述历史特征词的义项标注;
获取针对指定产品输入的新评论文本,从所述新评论文本中提取产品新特征词和对应的新情感词组合;
根据所述新特征词和新情感词组合,查询与所述新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为所述新特征词的词义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳美云智数科技有限公司,未经深圳美云智数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710473766.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:意思生成方法、意思生成装置以及程序
- 下一篇:一种可交互的数据信息可视化系统