[发明专利]无监督可解释分词的方法、装置和电子设备有效

专利信息
申请号: 202110887556.7 申请日: 2021-08-03
公开(公告)号: CN113591475B 公开(公告)日: 2023-07-21
发明(设计)人: 陆中秋;王椗;刘金艳 申请(专利权)人: 美的集团(上海)有限公司;美的集团股份有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/216;G06F16/33;G06F16/35
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 安卫静
地址: 201700 上海市青浦区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 监督 可解释 分词 方法 装置 电子设备
【说明书】:

发明提供了一种无监督可解释分词的方法、装置和电子设备,该方法利用掩码语言模型分类器可以很好地利用大量的未标记数据,无需进行数据的标记,降低了标注成本,由于掩码语言模型分类器为采用专业领域文本训练得到的,所以领域适应性强,此外,通过字级别掩码序列、局部扰动掩码序列、掩码语言模型分类器输出的掩码字符概率对局部可解释模型进行训练,使得局部可解释模型也具备了与掩码语言模型分类器相同的效果,同时,得到了局部可解释模型的可解释性权重,即得到了掩码字符的上下文因果相关度向量,进而得到待分词文本的字符之间的有向因果相关度矩阵,根据该有向因果相关度矩阵对待分词文本进行分词时,可以解决一词多义的技术问题。

技术领域

本发明涉及自然语言处理的技术领域,尤其是涉及一种无监督可解释分词的方法、装置和电子设备。

背景技术

分词是自然语言处理的基础任务,将句子、段落分解成为字词,方便后续的处理和分析。文本是非结构化数据,需要先将这些数据转换为结构化数据,进而结构化数据就可以转换为数学问题,其中,分词就是转换的第一步。

词是表达完整含义的最小单位。字的粒度太小,无法表达完整的含义,比如“鼠”可以是“老鼠”,也可以是“鼠标”。而句子的粒度太大,承载了太多的信息,很难复用。同时,各种语言的分词方式不同,英文有天然的空格作为分隔符,而中文没有,所以如何切分成为一个难点,加之中文中一词多义的情况很多,很容易出现歧义。

一个好的分词模型需要大量的标记数据,而标记数据需要大量的标记成本,有限的标记数据成为制约分词发展的一个瓶颈。而现实中,我们拥有大量的未标记数据,如何利用未标记数据进行分词也成为分词技术发展的一个方向。

现有的分词方式分为三大类,一类是基于词典的分词方式,该种分词方式适应性不强,不同领域分词效果差距大,并且词典也难以获取;另一类是基于统计的分词方式,该种分词方式适应能力强,但是成本较高,速度慢,无法解决一词多义的问题;还有一类是基于深度学习的分词方式,该种分词方式需要大量的标记样本,而标记样本数量限制了该种分词方式的发展。目前,常见的分词器都是使用机器学习算法和词典相结合的方式,一方面为了提高分词准确率,另一方面为了改善领域适应性,但是,该种分词器的标注成本高,领域适应性依然不强,同时,无法解决一词多义的问题。

综上,现有的分词方法存在标注成本高、领域适应性差,且无法解决一词多义的技术问题。

发明内容

有鉴于此,本发明的目的在于提供一种无监督可解释分词的方法、装置和电子设备,以缓解现有的分词方法标注成本高、领域适应性差,且无法解决一词多义的技术问题。

第一方面,本发明实施例提供了一种无监督可解释分词的方法,包括:

获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列,其中,所述掩码语言模型分类器为采用专业领域文本训练得到的;

将所述字级别掩码序列输入至所述掩码语言模型分类器,输出得到与所述字级别掩码序列对应的掩码字符概率,并将与所述字级别掩码序列对应的局部扰动掩码序列输入至所述掩码语言模型分类器,输出得到与所述局部扰动掩码序列对应的掩码字符概率,其中,所述掩码字符概率表示掩码位置为所述掩码语言模型分类器的所有词表中每一个字词的概率;

采用所述字级别掩码序列、与所述字级别掩码序列对应的掩码字符概率、所述局部扰动掩码序列、与所述局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到所述局部可解释模型的可解释性权重,并将所述可解释性权重作为掩码字符的上下文因果相关度向量,进而得到所述待分词文本的字符之间的有向因果相关度矩阵;

根据所述有向因果相关度矩阵对所述待分词文本进行分词,得到所述待分词文本的分词结果。

进一步的,根据所述有向因果相关度矩阵对所述待分词文本进行分词,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美的集团(上海)有限公司;美的集团股份有限公司,未经美的集团(上海)有限公司;美的集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110887556.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top