[发明专利]一种统计语言模型自动抽选语料算法无效
申请号: | 201010119746.6 | 申请日: | 2010-03-09 |
公开(公告)号: | CN102193909A | 公开(公告)日: | 2011-09-21 |
发明(设计)人: | 方圆;秦晓康 | 申请(专利权)人: | 方圆;秦晓康 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统计 语言 模型 自动 抽选 语料 算法 | ||
1.一种统计语言模型自动抽选语料算法,提高海量原始语料的抽选速度以及抽选语料质量,其特征是:将信息论中交叉熵的概念进行工程上的简化并应用在统计语言模型的自动抽选语料算法中,并引入分集计算的方法。
2.根据权利要求1所述的一种统计语言模型自动抽选语料算法,其特征是将一个之前准确度最好的语言模型作为语料挑选的基准参考语言模型,然后采取语料分集的算法,将原始语料随机分为若干个集合,分别训练每个集合的语言模型,计算交叉熵,选取熵值最小的几个集合并入最终的语料结果集,迭代此过程直至最终语言模型的准确度达标。
3.根据权利要求1所述的统计语言模型自动抽选语料算法,其特征是随机分配原始语料至若干个子集合中,并尽可能的保证每个子集合的大小平均。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方圆;秦晓康,未经方圆;秦晓康许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010119746.6/1.html,转载请声明来源钻瓜专利网。