[发明专利]语言模型的确定方法和装置有效
申请号: | 201710685946.X | 申请日: | 2017-08-11 |
公开(公告)号: | CN109388743B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 郑昊;鄢志杰 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955;G06F16/35;G06F40/216 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 模型 确定 方法 装置 | ||
本发明公开了一种语言模型的确定方法和装置。其中,该方法包括:获取第一语料,其中,第一语料为在预设语境下选取的语言文本;通过对第一语料进行训练得到第一语言模型;采用第一语言模型对目标文本进行筛选以得到第二语料,并通过对第二语料进行训练得到第二语言模型,其中,目标文本是利用从所述第一语料中提取的关键词集合作为索引检索得到。本发明解决了由于现有技术中语言模型仅通过堆砌语料的策略获取,导致语料的性能低下的技术问题。
技术领域
本发明涉及语言模型领域,具体而言,涉及一种语言模型的确定方法和装置。
背景技术
目前,在语音识别中,语言模型为整个识别过程中的一个重要环节,甚至在自然语言理解中也非常重要,从而对语音识别的性能产生了深远的影响。然而,语料对数据的匹配程度非常敏感,比如,对于某个特定的领域,语料是否匹配会严重制约语言模型的性能,从而制约整个系统的性能。
传统的语言模型训练往往采用堆砌语料的方法。在语料不足的情况下,语料数量对于语言模型性能的影响,远远超过了语料质量对于语言模型性能的影响。在语料数量还满足不了需求的时候,人们还没有余力去有针对性地提升语料性能。随着语言模型建立的流程的成熟以及互联网的普及,对于海量语料数据的获取不再是不可能实现的任务。在可以获取海量数据的基础上,可以针对具体任务查找更加贴合实际应用的领域内的语料。在查找语料的过程中,只是根据开发人员自身对于任务的理解,人为地有选择地去获取一些与任务相关的语料。
在获取语言模型时,目前通过对开发集词向量聚类获得开发集的主题模型,通过逐句计算海量语料中语句与主题的距离,并设置阈值进行数据的筛选。但是,该方法有以下缺陷:
(1)需要很大的计算资源,用于训练词向量映射网络。当训练词向量映射网络需要较多的计算资源时,对于大规模大词标语料,训练一个词向量模型的计算量远大于训练一个N元文法(N-Gram)语言模型,这在语言模型领域是一个不小的开销。另外,词向量网络的好坏,也会直接影响整个系统的性能;
(2)聚类中心数难以确定,且容易陷入局部最优。词向量方法基于聚类的策略体现对主题的建模。但是,经典而快速的聚类算法常容易陷入局部最优,比如,K-Means算法,较难在完全没有监督的情况下获得较好地区分,造成语言模型的性能低下;
(3)逐词求得平均值作为句子的向量的操作有一定的不合理性。词向量网络将词转化成向量,而在基于词向量的聚类方法里,需要通过计算句中词向量的均值作为该句的向量并用于下一步的主题模型建模。然而在句子中辅助词的比例往往较高,却不对语义产生明确影响,简单的平均方法使得句向量过多地偏重到了辅助词,毕竟很多辅助词本身并不能很好地表征语义,但却占了语句中较大的比例,而忽略了语句中本该起作用的关键词,从而使语言模型的性能低下;
(4)工程实现较为复杂。虽然词向量网络有开源工具实现,但之后的词句向量转换、主题中心聚类、逐句余弦距离等,难以借助开源工具直接实现,需要工程人员自己编写代码等进行实现,为获取语言模型造成了一定的不便。
科大讯飞在INTERSPEECH 2016国际会议上发表了一篇通过词向量余弦距离判断相关度的文章,同样存在上述问题。
针对由于现有技术中语言模型仅通过堆砌语料的策略获取,导致语料的性能低下的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语言模型的确定方法和装置,以至少解决由于现有技术中语言模型仅通过堆砌语料的策略获取,导致语料的性能低下的技术问题。
根据本发明实施例的一个方面,提供了一种语言模型的确定方法,包括:获取第一语料,其中,第一语料为在预设语境下选取的语言文本;通过对第一语料进行训练得到第一语言模型;采用第一语言模型对目标文本进行筛选以得到第二语料,并通过对第二语料进行训练得到第二语言模型,其中,目标文本是利用从第一语料中提取的关键词集合作为索引检索得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710685946.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索方法、搜索服务器和搜索系统
- 下一篇:一种自适应学习推荐方法及装置