[发明专利]一种基于条件随机场和转换学习越南语组块方法在审
申请号: | 201610063505.1 | 申请日: | 2016-01-29 |
公开(公告)号: | CN105740233A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 余正涛;刘艳超;郭剑毅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 条件 随机 转换 学习 越南语 方法 | ||
技术领域
本发明涉及一种基于条件随机场和转换学习越南语组块方法,属于自然语言处理技术领域。
背景技术
中国—东盟自由贸易区是世界上人口最多的自由贸易区,“桥头堡战略”是推进我国向西南开发、实现与东盟国家睦邻友好的战略需要,云南是中国向西南开放的重要桥头堡,语言上的沟通是实现中国与东盟国家之间政治、文化、经济交流的前提。东盟成员国越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方边境人民友好相处,相互学习方面起到了十分重要的作用。所以,针对越南语语言方面的研究工作就显得尤为重要。机器翻译过程中,句法分析是十分重要的工作,但是对于完全句法分析,目前效果离预期的效果相差很远,于是,提出分而治之的思想,对越南语句子逐步分解去分析显得尤为重要。越南语的结构相对比较简单,词语之间的从属关系清晰明确,所以相对于部分的句法分析,越南语更适合采用从部分句法分析再到完全句法分析,唯有这一个过度的转换,才能更好为完全句法分析提供平台;越南语组块语料库构建,已经成为整个越南语部分句法分析和完全句法分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的短语树构建、完全句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。
发明内容
本发明提供了一种基于条件随机场和转换学习越南语组块方法,以用于解决越南语组块识别正确率不高的问题,能对对越南语的短语树构建、完全句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。
本发明的技术方案是:一种基于条件随机场和转换学习越南语组块方法,所述基于条件随机场和转换学习越南语组块方法的具体步骤如下:
Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;
Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;
Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;
Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。
所述步骤Step1中预处理的具体步骤如下:
Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;
Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;
Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;
Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。
所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:
Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;
Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;
Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;
Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。
所述步骤Step3中,获取转换方式集合的具体步骤如下:
Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;
Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610063505.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双转子破碎机承击砧
- 下一篇:一种环保型汽车发动机拨叉衬套