[发明专利]一种语言模型得分的生成方法及装置有效

申请号：	201811458404.X	申请日：	2018-11-30
公开（公告）号：	CN109543041B	公开（公告）日：	2021-11-26
发明（设计）人：	张享;高建清;王智国;胡国平;胡郁;刘庆峰	申请（专利权）人：	安徽听见科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36;G06F40/289;G06F40/30
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	张小娜;王宝筠
地址：	230088 安徽省合肥市高新区***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语言模型得分生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语言模型得分的生成方法及装置，该方法包括：利用预先构建的表达记忆库，生成目标文本中的每个词语的语言模型得分，其中，表达记忆库存储了目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。可见，本申请实施例在生成目标文本的得分时，考虑了该目标文本所属领域中各个关键词的向量表达结果以及与各个关键词相关的各个关联词对应的向量表达结果，从而能够更准确地生成目标文本中各个词语的得分。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种语言模型得分的生成方法及装置。

背景技术

现有的语言模型包括Ngram语言模型和循环神经网络(Recurrent NeuralNetwork，RNN)语言模型，可以在文本预测、文本校对以及语音识别(比如对演讲、访谈、辩论等长语音数据进行的语音识别)等应用场景中，使用语言模型计算相关文本的各个词语的语言模型得分，也即各个词语的概率得分，用以确定该文本是否属于一段合理的自然语言。

但是，现有的语言模型得分生成方法，仅仅考虑文本中的词语在一定范围内(比如该词语之前的2～4个词)的词语搭配关系，从而导致生成的语言模型得分不准确。

发明内容

本申请实施例的主要目的在于提供一种语言模型得分的生成方法及装置，能够提高文本中各个词语的得分的准确性。

本申请实施例提供了一种语言模型得分的生成方法，包括：

利用预先构建的表达记忆库，生成目标文本中的每个词语的语言模型得分；

其中，所述表达记忆库存储了所述目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。

可选的，所述第一向量表达结果包括：根据对应关键词生成的向量表达结果；和/或，根据对应关键词的周边词语生成的该对应关键词的向量表达结果，其中，该对应关键词以及该对应关键词的周边词语属于所述目标文本所属领域中的样本文本；

所述第二向量表达结果包括：根据对应关联词生成的向量表达结果；和/或，根据对应关联词的周边词语生成的该对应关联词的向量表达结果，其中，该对应关联词以及该对应关联词的周边词语属于所述目标文本所属领域中的样本文本。

可选的，所述利用预先构建的表达记忆库，生成目标文本中的每个词语的语言模型得分，包括：

将所述目标文本中的每个词语作为目标词语；

利用预先构建的语言模型生成所述目标词语的向量表达结果；

根据所述目标词语的向量表达结果以及所述表达记忆库中存储的向量表达结果，生成所述目标词语的语言模型得分。