[发明专利]一种基于领域适应性的网络文本的分词方法有效

申请号：	201710397541.6	申请日：	2017-05-31
公开（公告）号：	CN107291837B	公开（公告）日：	2020-04-03
发明（设计）人：	孙栩;许晶晶;马树铭	申请（专利权）人：	北京大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06N3/08
代理公司：	北京万象新悦知识产权代理有限公司 11360	代理人：	黄凤茹
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于领域适应性网络文本分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公布了一种基于领域适应性的社交网络文本的分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用跨领域的新闻语料、社交网络中的标注数据和无标注数据对集成式神经网络模型进行训练；具体将社交网络文本分为标注和未标注数据集合作为输入；将新闻领域语料作为源语料，在新闻源语料上预训练源分类器；通过对源分类器赋予权重的方式进行源分类器的集成；使用社交网络语料对集成式神经网络模型进行训练；利用训练好的集成式神经网络模型进行预测，由此提升社交网络分词的效果。本发明可用于解决社交网络中因为数据过少导致的效果差的问题，能够有效地提升社交网络文本分词的效果。

技术领域

本发明属于自然语言处理领域，涉及社交网络文本分词，尤其涉及一种基于领域适应性的社交网络文本的分词方法。

背景技术

对于传统的新闻领域上的分词任务，基于统计的方法最开始取得不错的效果，主要包括条件随机场和感知器模型。然而，这些模型需要抽取大量的特征，所以泛化能力受到了限制。

近年来，越来越多地采用基于神经网络的方法进行自动化抽取特征的工作，其中出现了比较多的分词模型，主要包括卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆神经网络(Long Short Term Memory Network,LSTM)等。虽然这些基于神经网络的方法非常有效，但是，训练这些模型并且得到一个比较好的效果需要大量的标注数据。而由于社交网络中的标注数据很有限，使得采用基于神经网络的方法进行分词无法取得较好的效果。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于领域适应性的社交网络文本的分词方法，通过建立集成式神经网络模型和采用自训练的学习方法，利用新闻领域语料，社交网络中少量的标注数据和大量的未标注数据进行集成式神经网络模型的训练，由此提升社交网络分词的效果，用于解决社交网络中因为数据过少导致的效果差的问题。

本发明的原理是：为了弥补社交网络分词的数据不足的问题，本发明利用了跨领域的标注数据和大量的未标注数据来提升社交网络分词的效果。本发明包括建立集成式神经网络模型和自训练学习过程。首先，为了利用跨领域的标注数据，我们提出了集成式神经网络模型。其次为了适应社交网络灵活的分词特点，我们提出了一种自训练的学习方法。这种方法利用了社交网络中大量的未标注数据。在使用跨领域的数据中，数据偏移是影响跨领域学习的主要障碍。首先，当源语料和目标语料数据分布不一致时，直接使用源语料训练得到的分类器反而会导致效果的进一步下降。其次，源语料和目标语料的标注标准存在部分差异，直接使用源语料会导致分类器对目标语料的标注标准适应性较差。最后，因为有很多源语料，如何有效地结合在不同源语料上学习得到的分类器也是一个比较大的问题。为了解决数据偏移的问题。我们首先在不同的源语料上预训练了不同的源分类器，其次，采用新的集成式神经网络模型，通过对分类器赋予权重的方式进行源分类器的集成和选择。在使用目标语料的训练过程中，可使用层次式(layer-wise)的训练方式：先训练源分类器，再训练集成式神经网络模型。

因为社交网络的语言用法灵活并且源语料又主要是新闻数据，用法比较规范，使得跨领域的学习不能很好地使用比如新词语的情况。而社交网络中有大量的无标注信息，这些未标注数据和目标语料标注数据有着相似的数据分布，并且可以用来进行新词语的挖掘。因此，本发明提出了自训练的方式，利用无标注的数据解决此问题。首先，利用集成式神经网络模型对未标注的数据赋予了一个预测标签，并提出了置信度函数对预测标签进行置信度的评测。最后，将未标注的数据，预测标签以及置信度一起加入到训练过程中。

本发明提供的技术方案是：

一种基于领域适应性的社交网络文本的分词方法，通过建立集成式神经网络模型和采用自训练的学习方法，利用新闻领域语料，社交网络中少量的标注数据和大量的未标注数据进行集成式神经网络模型的训练，由此提升社交网络分词的效果；包括模型训练和模型预测两个部分；其中模型的训练过程包括如下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710397541.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于语义相关度模型的中文文本摘要获取方法
下一篇：有效筛分资源的爬虫系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于领域适应性的网络文本的分词方法有效

专利文献下载