[发明专利]一种基于特征可控融合的深度表示学习方法有效
申请号: | 201910989654.4 | 申请日: | 2019-10-17 |
公开(公告)号: | CN110866542B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 饶元;冯聪;吴连伟 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 可控 融合 深度 表示 学习方法 | ||
本发明公开了一种基于特征可控融合的深度表示学习方法,在基于预训练的多层语言模型中获取单词情境化的嵌入表示的基础上,分别从局部和序列角度获取不同尺度的特征表示,并且提出了使用多头交互线性注意力机制提取上下文摘要实现单词的上下文信息表示。本发明使用预训练的多层语言模型对单词进行嵌入表示,获取了单词更加语境化的表示,解决了以往方法单词嵌入表示不够丰富,无法解决一词多义的问题;本发明提出了上下文摘要,使用多头交互线性注意力计算当前单词在整个句子影响下的特定表示来发现单词之间的差异以辅助评价对象挖掘;最后,本发明使用了门机制进行特征的筛选,为不同特征分配权重,加强了有用特征的影响。
【技术领域】
本发明涉及一种多尺度与多类型特征可控融合的产品评价对象挖掘的深度表示学习方法。
【背景技术】
随着互联网的迅速发展,网络购物已经成为人们生活不可或缺的一部分,同时因网络购物而产生的网络产品在线评论数据也呈现指数性增长。这些数据大都是消费者使用产品后的真实感受与客观评价,不仅可以引导或促进其它消费者的购买兴趣,而且也可以帮助产品提供者寻找产品存在的问题与不足,推动产品的设计与服务的优化,这其中蕴含着大量的商业价值。具体地,从消费者角度来说,针对某件产品消费者想要关注的可能是产品的某些属性和特征,例如手机中的续航、分辨率、拍照质量等特征,或者是电脑的性能、故障率以及外观等特征,通过了解其他消费者对于这些属性或特征的观点与评价可以有效地指导消费者筛选产品;从商家角度来说,及时地获取消费者针对产品不同属性或特征的看法可以帮助商家改进产品不足或者确定下一步研发方向。因此,如何从海量产品评论中自动化地挖掘出评论者所评论的评价对象与相关的观点倾向,已成为亟需解决的重要问题。
大多数学者将评价对象挖掘视为序列标注问题。现有方法利用无监督学习、机器学习、深度学习等技术来挖掘评价对象已经获得了一定的成功。这些方法概括起来,大致可分为如下三类:基于统计学和语言规则的方法、基于句法依赖解析的方法以及基于深度语义表示学习的方法。其中,第一类方法主要是利用频繁项集挖掘或者利用手工构造的规则模板进行评价对象挖掘,这类方法虽然取得了一定的效果,但是难以适应灵活多变的句法特征及语义信息,导致召回率普遍不高。第二类方法则是使用句法依赖解析去捕获单词之间的语义关系,然后将这些关系作为条件随机场或者深度神经网络的输入,从而挖掘出单词之间的序列化语义信息特征,但这类方法仍然会受限于句法特征和简单的序列特征,缺乏特征的广度与语义的深度表示能力,同时还会受到句法依赖解析结果的影响。第三类方法是在第二类方法的基础上,使用注意力机制代替句法依赖解析来对评价对象和评价词之间的关系建模,在挖掘深度语义的同时降低了句法解析错误的影响。遗憾的是,上述几类方法都没有考虑到句子的局部特征、序列特征以及上下文特征的使用对评价对象挖掘结果的影响与贡献的差异,如何对不同类型的特征可控地进行筛选和优化,以及如何解决在不同领域下语义差异性等问题,这在很大程度上影响到产品的评价对象挖掘的准确性。
【发明内容】
本发明的目的在于克服上述现有技术的缺点,提供一种基于特征可控融合的深度表示学习方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于特征可控融合的深度表示学习方法,包括以下步骤:
步骤0:利用分词工具将评论数据分为单词序列,并给出对应的标签;
步骤1:给定长度为N的评论数据其中xi代表评论中的一个单词,yi表示该单词对应的标签,且yi∈{B,I,O};对于标签集合{B,I,O},B、I、O分别代表评价对象的开头单词,评价对象的内部单词和非评价对象单词;
步骤2:采用预训练的多层语言模型作为单词嵌入工具,获取单词情境化的嵌入表示;
步骤3:使用BERT作为词嵌入工具,BERT是由多层transformer组成的模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910989654.4/2.html,转载请声明来源钻瓜专利网。