[发明专利]语言模型获取及中文语义理解方法、装置及存储介质在审

申请号：	202010552815.6	申请日：	2020-06-17
公开（公告）号：	CN111859981A	公开（公告）日：	2020-10-30
发明（设计）人：	丁思宇;王硕寰;孙宇	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06K9/62
代理公司：	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人：	谷春静
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言模型获取中文语义理解方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了语言模型获取及中文语义理解方法、装置及存储介质，涉及自然语言处理及深度学习领域，其中的方法可包括：获取作为训练数据的中文文本；针对任一训练数据，分别获取其中的各文字的预定嵌入信息，预定嵌入信息中至少包括两种嵌入信息，其中一种为音调嵌入信息；根据预定嵌入信息，利用训练数据训练语言模型，语言模型用于根据待处理的中文文本中的各文字的预定嵌入信息、生成待处理的中文文本的语义表示信息。应用本申请所述方案，可提升语义理解结果的准确性等。

技术领域

本申请涉及计算机应用技术，特别涉及自然语言处理及深度学习领域的语言模型获取及中文语义理解方法、装置及存储介质。

背景技术

随着知识增强语义表示模型(ERNIE，Enhanced Representation from kNowledgeIntEgration)、转换器的双向编码表示(BERT，Bidirectional Encoder Representationsfrom Transformers)等大型通用预训练语言模型的提出，中文语义理解任务取得了质的飞跃。Transformer作为此类模型的常用基本结构，其采用的自注意力(self-attention)机制使得模型能够通过捕捉文本的上下文信息来更好地实现对于文本的语义信息的理解。

但是，中文中存在很多有歧义的文字，若单纯的基于上下文信息很难消除所述歧义，从而导致语义理解结果不够准确。

发明内容

本申请提供了语言模型获取及中文语义理解方法、装置及存储介质。

一种语言模型获取方法，包括：

获取作为训练数据的中文文本；

针对任一训练数据，分别获取其中的各文字的预定嵌入信息，所述预定嵌入信息中至少包括两种嵌入信息，其中一种为音调嵌入信息；

根据所述预定嵌入信息，利用所述训练数据训练语言模型，所述语言模型用于根据待处理的中文文本中的各文字的所述预定嵌入信息、生成所述待处理的中文文本的语义表示信息。

一种中文语义理解方法，包括：

针对待处理的中文文本，分别获取其中的各文字的预定嵌入信息，所述预定嵌入信息中至少包括两种嵌入信息，其中一种为音调嵌入信息；

根据所述预定嵌入信息及预先训练得到的语言模型，得到所述待处理的中文文本的语义表示信息。

一种语言模型获取装置，包括：数据获取模块及模型训练模块；

所述数据获取模块，用于获取作为训练数据的中文文本；