[发明专利]基于层次嵌入的方面抽取方法在审
| 申请号: | 201810840667.0 | 申请日: | 2018-07-27 |
| 公开(公告)号: | CN108984532A | 公开(公告)日: | 2018-12-11 |
| 发明(设计)人: | 刘漳辉;肖顺鑫;郭昆;陈羽中 | 申请(专利权)人: | 福州大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
| 地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 抽取 嵌入的 嵌入 神经网络 双向循环 预处理操作 原始语料 多阶段 有效地 级联 标注 自动化 | ||
本发明涉及一种基于层次嵌入的方面抽取方法,对原始语料执行多阶段的预处理操作,使用字符层次的嵌入和双向循环神经网络获得词的高层次特征,通过级联词嵌入与字符嵌入特征以作为词层次双向循环神经网络的输入,获得最终标注结果。本发明提出的一种基于层次嵌入的方面抽取方法,有效地提高方面抽取模型自动化的程度。
技术领域
本发明涉及自然语言处理中的细粒度情感分析领域,特别是一种基于层次嵌入的方面抽取方法。
背景技术
随着信息时代的到来,网络观点调查已经逐步取代了传统纸质问卷调查,不仅包括商品评论领域,还涉及社会公众事件、外交以及国家政策等领域。但是随着互联网便利性的增强,网络上涌现出大量的用户生成内容,除了新闻报道等客观信息外,带有主观色彩的评论数据也占据了很大一部分,且呈现出大数据化的发展趋势。对这些海量的数据进行细粒度的情感分析(又称观点挖掘),不仅有利于发现、分析及控制舆论,还可以帮助生产者改进产品、服务质量,以及帮助消费者做出购买决策。
对评论文本进行细粒度情感分析,即挖掘出文本中的评价对象(又称方面)、观点词及观点持有者。如在笔记本电脑评论“Thebattery life is long”中,观点持有者即发布这条评论的消费者,用观点词“long”对方面短语“battery life”进行描述。现如今,观点挖掘技术被广泛应用于自然语言处理、人工智能等领域。
现有的方面抽取研究大多集中于基于规则或基于传统机器学习模型的方法。基于规则的方法简单易行、执行效率高,但性能严重依赖于专家制定的规则质量和语料中语法的正确性;基于传统机器学习模型的方法,大多采用HMM模型和CRF模型,本质上是将方面抽取看成是一个序列标注任务,获得比基于规则更高的性能,但是该类方法需要大量的特征工程,性能也严重依赖于所选特征的质量。
发明内容
本发明的目的在于提供一种基于层次嵌入的方面抽取方法,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种基于层次嵌入的方面抽取方法,按照如下步骤实现:
步骤S1:对在线评论文本进行预处理;
步骤S2:对低频词进行过滤,过滤掉文本中出现频次小于预设阈值的单词;
步骤S3:进行字符嵌入和单词嵌入初始化;
步骤S4:通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征;
步骤S5:将词嵌入特征和字符层次的词特征进行级联,通过采用词层次的双向循环神经网络获得最终的标注结果。
在本发明一实施例中,在所述步骤S1中,所述预处理还包括如下步骤:
步骤S11:进行分词处理;采用NLTK工具提供的正则分词器,并设置正则匹配规则;
步骤S12:进行特殊符号处理;移除文本中出现的各种标点符号;
步骤S13:进行数字处理;将语料中的所有数字都用单词“DIGIT”进行替换;
步骤S14:进行转小写处理;将同一个单词的不同大小写形式都转换成统一的小写形式;
步骤S15:进行词形还原处理;采用NLTK工具提供的词形还原功能将一个词的各种形式还原到一般形式;
步骤S16:进行词干提取处理;采用NLTK工具提供的词干提取功能提取一个单词的词干或词根形式。
在本发明一实施例中,在所述步骤S2中,还包括如下步骤:
步骤S21:选定低频词过滤阈值;根据如下公式过滤掉出现频次小于过滤阈值的单词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810840667.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于语文教材的图书阅读难度方法及系统
- 下一篇:一种词汇义原预测方法及装置





