[发明专利]一种基于语料领域的语料处理系统有效
申请号: | 201910009322.5 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109871533B | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 孔洋洋;陈飞宇;朱劲松 | 申请(专利权)人: | 北京车慧科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 11393 北京市维诗律师事务所 | 代理人: | 李翔;杨安进 |
地址: | 100044 北京市海淀区西直门外大街16*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 向量 编码模型 目标领域 处理系统 训练模块 标签数据 处理模型 领域语料 先验知识 向量训练 申请 参考 开放 | ||
本申请公开了一种基于语料领域的语料处理系统。该系统包括:第一训练模块,用于根据开放领域语料训练第一编码模型,根据目标领域参考语料训练第二编码模型;向量模块,用于将目标领域语料输入所述第一编码模型得到第一向量,将目标领域语料输入所述第二编码模型得到第二向量,将目标领域语料输入第三模型得到第三向量;第二训练模块,用于根据所述第一向量、所述第二向量以及所述第三向量训练语料处理模型。本申请的提供的技术方案,由于利用了开放领域的先验知识,减少了标签数据使用量,使得不仅效果得到显著提升,而且训练时间也大大缩短。
技术领域
本申请涉及语料处理领域,尤其涉及一种基于语料领域的语料处理系统。
背景技术
用户生成内容是目前自然语言处理的重要对象之一,通过对大量用户生成内容进行数据挖掘,可以发现用户生成内容所反映出的信息,从而可以对用户生成内容进行分类。例如,现有技术中,针对汽车领域的情感分析主要是通过用户在发布用户生成内容的时候,强制其针对汽车的各个方面进行评价,从而达到分类的目的。根据用户的评价,可以通过机器学习的方式进一步分析用户具体评论的情感倾向,如是积极态度还是消极态度。
尽管现有技术中的技术方案在某些特定领域的应用能够起到不错的效果,并得到了广泛使用,但是仍然存在一些缺点。首先,强制用户针对汽车的各个方面进行评价,阻碍了一部分用户主动发布用户生成内容,因而损失了大量数据。其次,如果是用户自身分类错误,则得到的结果错误。而且,目前的方案分类粒度较大,不够细致。
此外,基于机器学习的方式实现起来比较耗时耗力,需要大量的标注数据和复杂特征提取过程,对于深度学习的方式,虽然不需要特征提取,但还是需要大量的标注数据训练模型,需要花费巨大的人力、财力和物力。
发明内容
有鉴于此,本申请提出了一种基于语料领域的语料处理系统,以减少标签的数量,提高用户生成内容处理的效率。
根据本申请的一个方面,提出了一种基于语料领域的语料处理系统,该系统包括:
第一训练模块,用于根据开放领域语料训练第一编码模型,根据目标领域参考语料训练第二编码模型;
向量模块,用于将目标领域语料输入所述第一编码模型得到第一向量,将目标领域语料输入所述第二编码模型得到第二向量,将目标领域语料输入第三模型得到第三向量;
第二训练模块,用于根据所述第一向量、所述第二向量以及所述第三向量训练语料处理模型。
优选地,所述第一编码模型为基于BiLSTM模型的自动编码器;和/或所述第二编码模型为基于BiLSTM模型的自动编码器;和/或第三模型为BiLSTM模型。
优选地,所述开放领域语料不包括汽车领域语料,和/或目标领域参考语料包括汽车领域新闻语料以及目标领域语料为汽车领域语料。
优选地,所述开放领域语料为开放领域实体语料,所述目标领域语料为汽车领域实体语料;所述语料处理模型为评价对象抽取模型。
优选地,所述评价对象抽取模型包括CRF模型。
优选地,所述开放领域语料为开放领域情感分析语料,所述目标领域语料为汽车领域情感分析语料;所述语料处理模型为情感倾向分析模型。
优选地,所述情感倾向分析模型包括SoftMax模型。
优选地,所述开放领域语料为去除标签后的开放领域语料。
优选地,所述第二训练模块,还用于在训练所述语料处理模型的过程中,冻结所述第一向量和所述第二向量,并优化所述第三向量。
优选地,该系统还包括:
预处理模块,用于将待评论语句进行预处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京车慧科技有限公司,未经北京车慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910009322.5/2.html,转载请声明来源钻瓜专利网。