[发明专利]一种评价对象的提取方法和装置有效
申请号: | 201710751576.5 | 申请日: | 2017-08-28 |
公开(公告)号: | CN107544959B | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 沈一;鲍新平 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/279;G06F40/30;G06F16/9536;G06Q50/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评价 对象 提取 方法 装置 | ||
本申请提供了一种评价对象的提取方法和装置,提取方法包括:遍历语料,获取所述语料中的名词和形容词;依据获取得到的名词和形容词,生成依存关系矩阵;依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述填充后的依存关系的名词为提取的评价对象。该方案中,考虑了语料中的依存关系信息,提出了依存矩阵的概念和构造方法,基于因子分解的方法使得提取过程具有一定的推理能力,提高了从语料中提取相关产品的评价对象的准确度。
技术领域
本发明涉及数据分析领域,更具体的说,是涉及一种评价对象的提取方法和装置。
背景技术
随着社交网络、移动互联网的不断普及,人们发布信息的成本越来越低,越来越多的用户乐于在互联网上分享自己的观点以及对于人物、事件、产品的评论。这些评论反映了人们对于事物的观点和情感倾向,对于舆情分析以及基于大数据的预测有着重要的意义。因此,情感分析技术应运而生,情感分析也被称为观点挖掘、观点分析,情感分析的目的是从文本中挖掘用户表达的观点,通常用情感极性(例如,正向、负向、中性等)来表示。
传统的情感分析主要关注一条评论整体的情感极性,然而整体的情感极性往往粒度较粗,用户无法依据整体的情感极性来判断当前产品在自己关注的某个属性上是否具有良好的口碑。一个整体口碑较好的产品不一定在每个属性上都具有良好的口碑,而不同的用户对同类别的产品关注的属性往往也存在一定的差异性。因此,如何对产品进行细粒度的情感分析成为亟待解决的问题。
而如何准确地提取产品的属性是解决细粒度情感分析的基础。例如,考虑如下针对某部电影的评论:“剧情不错,特效很炫,就是票价太贵了。”这里“剧情”“特效”“票价”都是电影属性,一般把属性称为“评价对象”,用来描述评价对象的词(“不错”“很炫”“太贵”)被称为“评价词”。
关于评价对象的提取,传统的方法主要可以归为两类:人工构建和关联规则挖掘,人工构建的缺点在于需要大量人力,且可移植性较差;关联规则挖掘的缺点在于没有充分考虑短语评价对象的结构特征以及评价对象的领域相关性。
发明内容
有鉴于此,本发明提供了一种评价对象的提取方法,解决如何从语料中准确地提取相关产品的评价对象,以便进行后续的细粒度情感分析,充分挖掘评论信息的价值的问题。
为实现上述目的,本发明提供如下技术方案:
一种评价对象的提取方法,包括:
遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;
依据获取得到的名词和形容词,生成依存关系矩阵;
依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;
依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。
上述的方法,优选的,所述遍历语料,获取所述语料中的名词和形容词之后,所述依据获取得到的名词和形容词,生成依存关系矩阵之前,还包括:
接收用户的输入信息;
基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。
上述的方法,优选的,所述依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,包括:
在所述评价词种子集合中选定任一评价词种子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710751576.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环保涂料装置
- 下一篇:可清洗的饲料搅拌混匀装置