[发明专利]语言模型的确定方法和装置有效

申请号：	201710685946.X	申请日：	2017-08-11
公开（公告）号：	CN109388743B	公开（公告）日：	2021-11-23
发明（设计）人：	郑昊;鄢志杰	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/955;G06F16/35;G06F40/216
代理公司：	北京博浩百睿知识产权代理有限责任公司 11134	代理人：	宋子良
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言模型确定方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语言模型的确定方法，其特征在于，包括：

获取第一语料，其中，所述第一语料为在预设语境下选取的语言文本；

通过对所述第一语料进行训练得到第一语言模型；

采用所述第一语言模型对目标文本进行筛选以得到第二语料，并通过对所述第二语料进行训练得到第二语言模型，其中，所述目标文本是利用从所述第一语料中提取的关键词集合作为索引检索得到；

其中，采用所述第一语言模型对所述目标文本进行筛选以得到所述第二语料包括：确定所述目标文本中的语言分割单位；采用所述第一语言模型对所述目标文本中每个语言分割单位所包含的词序列分别进行混淆度计算，依次得到与每个语言分割单位对应的计算结果，其中，与每个语言分割单位对应的计算结果用于表明该语言分割单位所包含的词序列与所述第一语言模型之间的相似度；按照预设阈值对计算得到的与每个语言分割单位对应的计算结果进行筛选，得到所述第二语料。

2.根据权利要求1所述的方法，其特征在于，在获取所述第一语料之后，还包括：

获取第三语料，其中，所述第三语料为随机采集的语言文本；

通过对所述第三语料进行训练得到第三语言模型；

将所述第二语言模型和所述第三语言模型融合成待使用的语言模型。

3.根据权利要求2所述的方法，其特征在于，在采用所述第一语言模型对所述目标文本进行筛选以得到所述第二语料之前，还包括：

从所述第一语言模型中提取所述关键词集合；

对所述关键词集合中的部分或全部关键词进行随机组合，通过预设搜索引擎确定与所述目标文本对应的索引标识；

根据所述索引标识获取所述目标文本。

4.根据权利要求3所述的方法，其特征在于，从所述第一语言模型中提取所述关键词集合包括：

统计所述第一语料中每个单词的第一出现概率，以及统计所述第一语料中每个单词在所述第三语料中的第二出现概率；

对每个单词的第一出现概率与每个单词的第二出现概率分别计算对数后做差，得到与每个单词对应的估算结果；

按照每个单词对应的估算结果由大到小进行排序，提取排列在前N位的多个单词组成所述关键词集合，其中，N为预设正整数。