[发明专利]一种基于领域适应性的网络文本的分词方法有效
申请号: | 201710397541.6 | 申请日: | 2017-05-31 |
公开(公告)号: | CN107291837B | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 孙栩;许晶晶;马树铭 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/08 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 适应性 网络 文本 分词 方法 | ||
1.一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络模型和采用自训练的学习方法,利用跨领域的新闻语料、社交网络中的标注数据和未标注数据进行集成式神经网络模型的训练,由此提升社交网络分词的效果;所述分词方法包括模型训练过程和模型预测过程;
模型训练过程包括如下步骤:
11)将社交网络文本分为标注数据集合Tl和未标注数据集合Tu,作为输入;输入集合包括样例X=x1x2,...,xi,...,xn;其中,xi为社交网络文本样例中的一个字;
12)将新闻领域语料作为源语料,在不同的新闻源语料上预训练不同的源分类器;
13)通过对源分类器赋予权重的方式进行源分类器的集成,建立集成式神经网络模型;将m个源分类器的隐层输出结果hi,1,...,hi,j,...,hi.m作为所述集成式神经网络模型的输入,所述集成式神经网络模型的输出为预测标签yi;
14)使用社交网络语料对所述集成式神经网络模型进行训练:所述社交网络语料包括标注数据和无标注的数据;对标注数据直接求交叉熵损失函数;对于未标注数据,通过自训练的方式进行训练;得到训练好的集成式神经网络模型;
模型预测过程包括如下步骤:
21)将待分词的社交文本样例输入到所述训练好的集成式神经网络模型中;
22)按照步骤13)对源分类器赋予权重的方式,通过计算得到集成式神经网络模型的隐层输出,再得到最终的预测结果,即为分词结果。
2.如权利要求1所述分词方法,其特征是,步骤12)所述源分类器采用卷积神经网络或长短时记忆神经网络。
3.如权利要求1所述分词方法,其特征是,步骤13)建立集成式神经网络模型包括如下过程:
131)对样例X中的xi,通过式1计算得到第i个字、第j个源分类器隐层输出结果的权重:
ei,j=f(W1[W2*hi,hi,j]) (式1)
其中,hi为m个源分类器的隐层输出结果hi,1,...,hi,2,...,hi.m,即hi={hi,1,...,hi,j,...,hi.m};W1,W2为权重参数矩阵;ei,j是第i个字、第j个源分类器隐层输出结果的权重;
132)对m个源分类器计算权重,并通过式2对权重进行归一化操作,得到归一化权重αi,j:
其中,αi,j为第i个字、第j个源分类器隐层输出结果的归一化权重;ei,j为式1的输出结果,即第i个字、第j个源分类器隐层输出结果的权重;式2中分母为m个所有的源分类器ei,p的权重的相加;
133)根据源分类器的输出和权重计算结果,通过式3对所有隐层的输出结果加权累加计算,得到加权之后的隐层输出si:
其中,αi,j为第i个字、第j个源分类器隐层输出结果的归一化权重;hi,j为第i个字、第j个源分类器隐层输出结果;si为第i个字的隐层输出;
134)通过式4计算得到预测结果,预测结果为y1,y2,...,yi,...,yn:
yi=softmax(g(si)) (式4)
其中,si为式3的输出;g为激活函数;softmax为归一化函数,用于将隐层输出转换为概率分布;yi为第i个字的预测标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710397541.6/1.html,转载请声明来源钻瓜专利网。