[发明专利]一种统计语言模型自动抽选语料算法无效

专利信息
申请号: 201010119746.6 申请日: 2010-03-09
公开(公告)号: CN102193909A 公开(公告)日: 2011-09-21
发明(设计)人: 方圆;秦晓康 申请(专利权)人: 方圆;秦晓康
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 统计 语言 模型 自动 抽选 语料 算法
【说明书】:

技术领域

发明涉及自然语言处理领域的统计语言模型自动抽选语料的方法改进,尤其能提高海量原始语料的抽选速度。

背景技术

目前,公知的抽选统计语言模型的训练语料的方法是由人工抽选,由自然语言处理方面的专业人士阅读海量的文本语料,从中挑选出他们认为平衡性最好的语料集合,尽可能的过滤噪音。但是,处理超过百兆的文本文件采取人工过滤的方法耗时太久,准确度也并不最优,不能做到语言模型的及时更新,快速反映热点词汇。

发明内容

为了克服现有的统计语言模型的训练语料抽选耗时久,结果也并不最优的不足,本发明提供了一种新的算法,不仅能成百倍的缩小语料抽选的处理时间,而且能更好的提高抽选语料的平衡性,提高结果语言模型的准确度。

本发明解决其技术问题所采用的技术方案是:将信息论中交叉熵的概念进行工程上的简化并应用在统计语言模型的自动语料抽选算法中。首先将一个准确度最好的语言模型作为语料抽选的基准参考语言模型,然后采取语料分集的方法,将原始语料随机的分为若干个子集合,并尽可能的使每个集合中的语料大小平均分配。分别训练每个集合的语言模型,计算出它们与基准参考语言模型的交叉熵,并按照从小到大进行排序,选取其中熵值最小的几个集合并入结果语料集。如果此结果集的语言模型准确率已经达到实验要求即可完成此算法,否则,可以将此时的结果集的语言模型作为基准参考模型,剩余的语料作为原始语料,迭代上述抽选过程直至达到最终的语言模型准确率要求。

本发明的有益效果是,可以在大幅度的降低语料抽选时间的同时,提高语料抽取结果的质量,提高统计语言模型的准确率,并且整个流程全自动化。

附图说明

下面结合附图对本发明进一步说明。

图1是本发明的算法流程图。

图2是本发明的实验结果图。

具体实施方式

在图1中,算法启动的输入数据为原始语料列表文件,根据此文件计算原始语料大小,并将原始语料均匀的分配至有限个数的语料子集中,接着训练每个语料子集的语言模型,计算他们与基准参考语言模型的交叉熵,对计算结果进行排序,挑选出交叉熵最小的若干子集,并入结果集合,然后训练结果集合的语言模型,计算其准确率。如果准确率达到要求,则结束语料抽选算法,否则迭代此算法流程。

在图2中,标识的是自动抽选语料算法与手动相比,最终的语言模型准确度的差异,在此将测试分为不同的方面,例如短语,长句,正规词汇,口语词汇等,对比实验数据,可见自动抽选语料算法相比手动抽选,在各个方面的准确度都有提高。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方圆;秦晓康,未经方圆;秦晓康许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010119746.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top