[发明专利]知识表示学习方法、装置、设备以及存储介质有效

专利信息
申请号: 202010524534.X 申请日: 2020-06-10
公开(公告)号: CN111680145B 公开(公告)日: 2023-08-15
发明(设计)人: 庞超;王硕寰;孙宇;李芝 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06N5/022 分类号: G06N5/022;G06N5/04;G06N3/042;G06N3/0455;G06F40/30;G06F16/332;G06F16/35;G06F16/36;G06F16/2458
代理公司: 北京英赛嘉华知识产权代理有限责任公司 11204 代理人: 王达佐;马晓亚
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 知识 表示 学习方法 装置 设备 以及 存储 介质
【权利要求书】:

1.一种知识表示学习方法,包括:

获取行业训练文本;

利用掩码语言模型对所述行业训练文本中的行业词进行掩码,得到掩码训练文本;

将所述掩码训练文本输入至预训练语言模型,学习得到所述行业训练文本中的每个字的知识表示;

其中,所述获取行业训练文本,包括:

收集行业问答语料;

将所述行业问答语料作为正例行业训练文本;

将所述行业问答语料中的问句和答句打散,生成负例行业训练文本;

在所述正例行业训练文本和所述负例行业训练文本的头部插入第一预设字符,以及在问句和答句的结尾插入第二预设字符。

2.根据权利要求1所述的方法,其中,所述掩码语言模型的定制步骤包括:

收集行业语料;

对所述行业语料进行切词,得到词语集合;

统计所述词语集合中的词语的分布,得到分布结果;

基于所述分布结果从所述词语集合中选取词语,生成行业词典,作为所述掩码语言模型。

3.根据权利要求2所述的方法,其中,

所述将所述掩码训练文本输入至预训练语言模型,学习得到所述行业训练文本中的每个字的知识表示,包括:

将所述掩码训练文本输入至预训练语言模型,学习得到所述行业训练文本中的每个字的知识表示,以及所述行业训练文本的正负例预测值。

4.根据权利要求1所述的方法,其中,所述行业是法律行业;以及

所述获取行业训练文本,包括:

收集法律判决书语料;

将所述法律判决书语料中的案由信息删除,生成法律行业训练文本。

5.根据权利要求4所述的方法,其中,所述获取行业训练文本,还包括:

在所述法律行业训练文本的头部插入第一预设字符,以及按照固定字符长度对所述法律行业训练文本进行划分,并且在划分出的每部分的结尾插入第二预设字符;以及

所述将所述掩码训练文本输入至预训练语言模型,学习得到所述行业训练文本中的每个字的知识表示,包括:

将所述掩码训练文本输入至预训练语言模型,学习得到所述法律行业训练文本中的每个字的知识表示,以及所述法律行业训练文本所属的案由。

6.根据权利要求4或5所述的方法,其中,所述法律判决书语料包括刑事法律判决书语料和民事法律判决书语料,以及所述刑事法律判决书语料和所述民事法律判决书语料使用不同的任务标识区分。

7.一种知识表示学习装置,包括:

行业训练文本获取模块,被配置成获取行业训练文本;

行业训练文本掩码模块,被配置成利用掩码语言模型对所述行业训练文本中的行业词进行掩码,得到掩码训练文本;

掩码训练文本学习模块,被配置成将所述掩码训练文本输入至预训练语言模型,学习得到所述行业训练文本中的每个字的知识表示;

其中,所述行业训练文本获取模块包括:

问答语料收集子模块,被配置成收集行业问答语料;

正例文本生成子模块,被配置成将所述行业问答语料作为正例行业训练文本;

负例文本生成子模块,被配置成将所述行业问答语料中的问句和答句打散,生成负例行业训练文本;

第一插入子模块,被配置成在所述正例行业训练文本和所述负例行业训练文本的头部插入第一预设字符,以及在问句和答句的结尾插入第二预设字符。

8.根据权利要求7所述的装置,其中,所述装置还包括掩码语言模型定制模块,所述掩码语言模型定制模块包括:

行业语料收集子模块,被配置成收集行业语料;

行业语料切分子模块,被配置成对所述行业语料进行切词,得到词语集合;

词语分布统计子模块,被配置成统计所述词语集合中的词语的分布,得到分布结果;

行业词典生成子模块,被配置成基于所述分布结果从所述词语集合中选取词语,生成行业词典,作为所述掩码语言模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010524534.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top