[发明专利]一种统计语言模型自动抽选语料算法无效
申请号: | 201010119746.6 | 申请日: | 2010-03-09 |
公开(公告)号: | CN102193909A | 公开(公告)日: | 2011-09-21 |
发明(设计)人: | 方圆;秦晓康 | 申请(专利权)人: | 方圆;秦晓康 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统计 语言 模型 自动 抽选 语料 算法 | ||
技术领域
本发明涉及自然语言处理领域的统计语言模型自动抽选语料的方法改进,尤其能提高海量原始语料的抽选速度。
背景技术
目前,公知的抽选统计语言模型的训练语料的方法是由人工抽选,由自然语言处理方面的专业人士阅读海量的文本语料,从中挑选出他们认为平衡性最好的语料集合,尽可能的过滤噪音。但是,处理超过百兆的文本文件采取人工过滤的方法耗时太久,准确度也并不最优,不能做到语言模型的及时更新,快速反映热点词汇。
发明内容
为了克服现有的统计语言模型的训练语料抽选耗时久,结果也并不最优的不足,本发明提供了一种新的算法,不仅能成百倍的缩小语料抽选的处理时间,而且能更好的提高抽选语料的平衡性,提高结果语言模型的准确度。
本发明解决其技术问题所采用的技术方案是:将信息论中交叉熵的概念进行工程上的简化并应用在统计语言模型的自动语料抽选算法中。首先将一个准确度最好的语言模型作为语料抽选的基准参考语言模型,然后采取语料分集的方法,将原始语料随机的分为若干个子集合,并尽可能的使每个集合中的语料大小平均分配。分别训练每个集合的语言模型,计算出它们与基准参考语言模型的交叉熵,并按照从小到大进行排序,选取其中熵值最小的几个集合并入结果语料集。如果此结果集的语言模型准确率已经达到实验要求即可完成此算法,否则,可以将此时的结果集的语言模型作为基准参考模型,剩余的语料作为原始语料,迭代上述抽选过程直至达到最终的语言模型准确率要求。
本发明的有益效果是,可以在大幅度的降低语料抽选时间的同时,提高语料抽取结果的质量,提高统计语言模型的准确率,并且整个流程全自动化。
附图说明
下面结合附图对本发明进一步说明。
图1是本发明的算法流程图。
图2是本发明的实验结果图。
具体实施方式
在图1中,算法启动的输入数据为原始语料列表文件,根据此文件计算原始语料大小,并将原始语料均匀的分配至有限个数的语料子集中,接着训练每个语料子集的语言模型,计算他们与基准参考语言模型的交叉熵,对计算结果进行排序,挑选出交叉熵最小的若干子集,并入结果集合,然后训练结果集合的语言模型,计算其准确率。如果准确率达到要求,则结束语料抽选算法,否则迭代此算法流程。
在图2中,标识的是自动抽选语料算法与手动相比,最终的语言模型准确度的差异,在此将测试分为不同的方面,例如短语,长句,正规词汇,口语词汇等,对比实验数据,可见自动抽选语料算法相比手动抽选,在各个方面的准确度都有提高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方圆;秦晓康,未经方圆;秦晓康许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010119746.6/2.html,转载请声明来源钻瓜专利网。