[发明专利]一种中文分词的方法、装置和存储介质在审

专利信息
申请号: 202211691524.0 申请日: 2022-12-27
公开(公告)号: CN116050406A 公开(公告)日: 2023-05-02
发明(设计)人: 邓彪;翟飞飞;史桂华 申请(专利权)人: 北京中科凡语科技有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06F40/126;G06N3/0442
代理公司: 湖北权上知识产权代理事务所(特殊普通合伙) 42287 代理人: 陈琳
地址: 100190 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 分词 方法 装置 存储 介质
【权利要求书】:

1.一种中文分词的方法,其特征在于,包括以下步骤:

S1、获取待检测句子的第二语言译文句子;

S2、使用中文Bert预训练语言模型对待检测句子进行编码,获取整个句子语义信息的向量表征和句子向量表征序列;

S3、使用第二语言Bert预训练语言模型对译文句子进行编码,获取整个句子语义信息的向量表征;

S4、融合待检测句子和译文句子语义特征,得到待检测句子的每个字的预测类别;

S5、按照预测类别,对待检测句子切分,得到分词结果。

2.根据权利要求1所述的中文分词的方法,其特征在于,在步骤S1中,所述获得带检测句子的译文句子包括:

S11、读取待检测句子,通过翻译得到检索语句;

S12、根据所述检索语句在第二语言文本库里模糊检索得到最相似的第二语言译文句子。

3.根据权利要求1所述的中文分词的方法,其特征在于,在步骤S4中,所述预测类别包括词首、词中、词尾和单独成词。

4.根据权利要求1所述的中文分词的方法,其特征在于,在步骤S4中,所述预测类别由以下步骤得到:

S41、将待检测句子文本的向量表征序列和译文句子的整体语义向量表征进行拼接,得到融合向量表征序列;

S42、将所述融合向量表征序列作为编码端输入,送入BilSTM网络得到其隐层输出,得到预测标签的概率分布矩阵;

S43、通过CRF层获得邻近标签之间的依赖关系,生成一个最优的预测序列,根据输出预测标签序列得到每个字的预测类别。

5.根据权利要求4所述的中文分词的方法,其特征在于,在步骤S43中,使用动态规划的Viterbi算法来求解最优的预测序列:;其中,argmax表示找到最优结果的函数,Y*作为输出预测标签序列,表示整个序列中句子X等于某一标签的打分。

6.根据权利要求4所述的中文分词的方法,其特征在于,在步骤S43中,根据输出预测标签序列得到每个字的预测类别之前,还包括对于句子属于某个预测类别进行打分:

其中,A是(k+2)×(k+2)为转移分数矩阵,P为发射矩阵,代表标签yi转移为yi+1的分数,表示字符i的第yi个标签的分数;

利用Softmax得到归一化后,句子X的标签等于Y的概率:

其中,表示整个序列中句子X等于某一标签的打分,YX表示所有可能的标签序列;模型训练时通过最大化对数似然函数实现,采用最大似然估计求解P(Y|X)的最大后验概率:

7.根据权利要求4所述的中文分词的方法,其特征在于,在步骤S42中,所述概率分布矩阵的表达式为:其中P∈Rm×n,n为序列长度,m等于预测类别数量;和分别表示BiLSTM前向和后向两个方向的输出向量。

8.根据权利要求1所述的中文分词的方法,其特征在于,在步骤S2中,Bert预训练语言模型以字为单位对文本序列进行编码。

9.一种中文分词的装置,其特征在于,包括:

获取单元,用于获取待检测句子的第二语言译文句子;

第一编码单元,用于使用中文Bert预训练语言模型对待检测句子进行编码,获取整个句子语义信息的向量表征和句子向量表征序列;

第二编码单元,用于使用第二语言Bert预训练语言模型对译文句子进行编码,获取整个句子语义信息的向量表征;

融合单元,用于融合待检测句子和译文句子语义特征,得到待检测句子的每个字的预测类别;

切分单元,用于按照预测类别,对待检测句子切分,得到分词结果。

10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的中文分词的方法的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211691524.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top