[发明专利]一种语言模型得分的生成方法及装置有效
申请号: | 201811458404.X | 申请日: | 2018-11-30 |
公开(公告)号: | CN109543041B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 张享;高建清;王智国;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 安徽听见科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张小娜;王宝筠 |
地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 模型 得分 生成 方法 装置 | ||
本申请公开了一种语言模型得分的生成方法及装置,该方法包括:利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分,其中,表达记忆库存储了目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。可见,本申请实施例在生成目标文本的得分时,考虑了该目标文本所属领域中各个关键词的向量表达结果以及与各个关键词相关的各个关联词对应的向量表达结果,从而能够更准确地生成目标文本中各个词语的得分。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语言模型得分的生成方法及装置。
背景技术
现有的语言模型包括Ngram语言模型和循环神经网络(Recurrent NeuralNetwork,RNN)语言模型,可以在文本预测、文本校对以及语音识别(比如对演讲、访谈、辩论等长语音数据进行的语音识别)等应用场景中,使用语言模型计算相关文本的各个词语的语言模型得分,也即各个词语的概率得分,用以确定该文本是否属于一段合理的自然语言。
但是,现有的语言模型得分生成方法,仅仅考虑文本中的词语在一定范围内(比如该词语之前的2~4个词)的词语搭配关系,从而导致生成的语言模型得分不准确。
发明内容
本申请实施例的主要目的在于提供一种语言模型得分的生成方法及装置,能够提高文本中各个词语的得分的准确性。
本申请实施例提供了一种语言模型得分的生成方法,包括:
利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分;
其中,所述表达记忆库存储了所述目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。
可选的,所述第一向量表达结果包括:根据对应关键词生成的向量表达结果;和/或,根据对应关键词的周边词语生成的该对应关键词的向量表达结果,其中,该对应关键词以及该对应关键词的周边词语属于所述目标文本所属领域中的样本文本;
所述第二向量表达结果包括:根据对应关联词生成的向量表达结果;和/或,根据对应关联词的周边词语生成的该对应关联词的向量表达结果,其中,该对应关联词以及该对应关联词的周边词语属于所述目标文本所属领域中的样本文本。
可选的,所述利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分,包括:
将所述目标文本中的每个词语作为目标词语;
利用预先构建的语言模型生成所述目标词语的向量表达结果;
根据所述目标词语的向量表达结果以及所述表达记忆库中存储的向量表达结果,生成所述目标词语的语言模型得分。
可选的,按照下述方式构建所述表达记忆库:
利用预先构建的关键词关联库,构建所述表达记忆库;
其中,所述关键词关联库中存储了各个领域的多个关键词、以及分别与每个关键词对应的目标关联词集,所述目标关联词集中包括对应关键词的多个关联词。
可选的,所述利用预先构建的关键词关联库,构建所述表达记忆库,包括:
确定所述目标文本所属的领域;
从所述关键词关联库中,筛选出所述领域内的各个关键词以及各个关键词分别对应的目标关联词集,形成一个关键词关联集;
构建所述表达记忆库,使所述表达记忆库包括所述关键词关联集中的每一词语以及每一词语的向量表达结果。
可选的,按照下述方式构建所述关键词关联库:
获取大量的样本文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽听见科技有限公司,未经安徽听见科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811458404.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:相似账户识别方法及装置
- 下一篇:专利自动分类系统