[发明专利]语言模型的确定方法和装置有效
申请号: | 201710685946.X | 申请日: | 2017-08-11 |
公开(公告)号: | CN109388743B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 郑昊;鄢志杰 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955;G06F16/35;G06F40/216 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 模型 确定 方法 装置 | ||
1.一种语言模型的确定方法,其特征在于,包括:
获取第一语料,其中,所述第一语料为在预设语境下选取的语言文本;
通过对所述第一语料进行训练得到第一语言模型;
采用所述第一语言模型对目标文本进行筛选以得到第二语料,并通过对所述第二语料进行训练得到第二语言模型,其中,所述目标文本是利用从所述第一语料中提取的关键词集合作为索引检索得到;
其中,采用所述第一语言模型对所述目标文本进行筛选以得到所述第二语料包括:确定所述目标文本中的语言分割单位;采用所述第一语言模型对所述目标文本中每个语言分割单位所包含的词序列分别进行混淆度计算,依次得到与每个语言分割单位对应的计算结果,其中,与每个语言分割单位对应的计算结果用于表明该语言分割单位所包含的词序列与所述第一语言模型之间的相似度;按照预设阈值对计算得到的与每个语言分割单位对应的计算结果进行筛选,得到所述第二语料。
2.根据权利要求1所述的方法,其特征在于,在获取所述第一语料之后,还包括:
获取第三语料,其中,所述第三语料为随机采集的语言文本;
通过对所述第三语料进行训练得到第三语言模型;
将所述第二语言模型和所述第三语言模型融合成待使用的语言模型。
3.根据权利要求2所述的方法,其特征在于,在采用所述第一语言模型对所述目标文本进行筛选以得到所述第二语料之前,还包括:
从所述第一语言模型中提取所述关键词集合;
对所述关键词集合中的部分或全部关键词进行随机组合,通过预设搜索引擎确定与所述目标文本对应的索引标识;
根据所述索引标识获取所述目标文本。
4.根据权利要求3所述的方法,其特征在于,从所述第一语言模型中提取所述关键词集合包括:
统计所述第一语料中每个单词的第一出现概率,以及统计所述第一语料中每个单词在所述第三语料中的第二出现概率;
对每个单词的第一出现概率与每个单词的第二出现概率分别计算对数后做差,得到与每个单词对应的估算结果;
按照每个单词对应的估算结果由大到小进行排序,提取排列在前N位的多个单词组成所述关键词集合,其中,N为预设正整数。
5.根据权利要求1所述的方法,其特征在于,采用所述第一语言模型对所述目标文本中每个语言分割单位所包含的词序列分别进行混淆度计算,依次得到与每个语言分割单位对应的计算结果包括:
计算每个语言分割单位所包含的词序列在所述目标文本中的出现概率;
利用所述出现概率求取与每个语言分割单位所包含的词序列对应的交叉熵;
将所述交叉熵设置为指数并且将预设数值设置为底数进行指数运算,得到与每个语言分割单位对应的计算结果。
6.根据权利要求5所述的方法,其特征在于,计算每个语言分割单位所包含的词序列在所述目标文本中的出现概率包括:
依次求取每个语言分割单位所包含的每个词序列相对于前N-1个词序列的单词概率,其中,所述N的取值是根据所述第一语言模型预先确定的;
通过对每个词序列对应的单词概率进行乘积运算得到所述出现概率。
7.根据权利要求6所述的方法,其特征在于,利用最大似然估计算法计算每个词序列对应的单词概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710685946.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索方法、搜索服务器和搜索系统
- 下一篇:一种自适应学习推荐方法及装置