[发明专利]基于统计模型的电力系统维吾尔语专用名词提取方法在审
申请号: | 201210553916.0 | 申请日: | 2012-12-19 |
公开(公告)号: | CN103885931A | 公开(公告)日: | 2014-06-25 |
发明(设计)人: | 塔拉甫·加盘;王天军;邹帅 | 申请(专利权)人: | 新疆信息产业有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 乌鲁木齐新科联知识产权代理有限公司 65107 | 代理人: | 祁磊 |
地址: | 830011 新疆维吾尔自治区*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统计 模型 电力系统 维吾尔 专用 名词 提取 方法 | ||
技术领域
本发明涉及维吾尔语信息技术领域,特别是基于统计模型的电力系统维吾尔语专用名词提取方法。
背景技术
新疆维吾尔自治区是多民族居住的地区,自治区官方语言是汉语和维吾尔语。随着社会向信息化社会发展,在西部大开发的推进下,维吾尔文的IT行业进入快速发展的时期。在新疆维吾尔自治区电力系统中维吾尔语专用名词包括的各种电力设备,电路学术名词和各种相关专用名词。但是到目前为止还没出现统一的标准和管理。
专用名词提取是信息检索的子领域,专用名词提取的目标是根据资料从文本自动提取相关的专用名词。1990年,美国DARPA组织在Message Understaning Conference中首次提出专用名词提取的概念。在日本,代表性成果是IREX工具包。随着社会的日益信息化,人民越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中一个引人入胜,富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言处理的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解,分析并回答自然语言的结果。目前计算机的智能还远没有达到能够像人一样理解自然语言的水平,而且在可预见的将来也不会达到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行判断的。如果计算机实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,那么就认为计算机具备了自然语言理解的能力。
上世界90年代,在国外对专用名词提取的研究和工作展开得比较多,研究成果广泛地应用到各个行业和日常生活中。在国内,针对汉语的自然语言处理研究中已经一部分工作涉及专用名词的提取。在新疆维吾尔自治区,由于地理和其他原因,信息化的起步开始得较晚,这方面的需求也没有明显地体现出来。本世界初十年,该地区的信息化加快,各个行业中自然语言处理的需求非常紧急。目前为止,没有进行过关于专用名词提取的研究,更没有事实应用的现象。
发明内容
本发明的目的在于提供一种基于统计模型的电力系统维吾尔语专用名词提取方法,电力系统专用名词提取方法的应用广泛。对给予的维吾尔文字资料进行词法分析,分词,根据预料的知识提取电力专用名词,并输出结果。应用范围是电力行业专用词典的编辑,电力行业预中自动提取专用名词,大大减少人工方式分类和提取的时间,劳动力和成本。
本发明的目的是这样实现的,一种基于统计模型的电力系统维吾尔语专用名词提取方法,①首先输入维吾尔语文本;②对维吾尔语文本进行分词;③将由上述第②步得到的分词结果进行人工标志,其中只对专用名词进行标志,标志标准采用国家上普遍的IOB标志法;④累计标志的资料后,通过CRF++工具包来建立专用名词模型。
本发明应用特征是:
1) 目前为止,新疆维吾尔自治区电力行业中还没有维吾尔语-汉语专用辞典,一部分原因归于编辑辞典需要大量语料资源和人力,大部分工作需要进行人工方式来进行,这是该发明被提出的重要原因之一。
2) 在新疆维吾尔自治区范围内,少数民族语言的电表,维汉双语营销系统已经开始推广和应用。该工作是少数民族语言电力业务标准化的有效保障,该成功的系统可以适应到其他少数民族语言,比如哈萨克语,柯尔克孜语等等。
3) 在机器翻译系统中需要实现类似的提取方法。针对某个行业的机器翻译系统中,为了保证翻译的质量,必须对专用单词进行正确的处理,因此首先提取专用单词并进行分析。该发明中的处理方法非常适合这种情况。
本发明工作的基础是维吾尔语的分词系统。该工作还需要建立电力相关的语料库。这些基础工作在专用名词的提取中应用。专用名词的提取中,首先用MeCab-Uyghur进行词法分析,第二步人工标志相关电力行业的单词,第三步通过CRF++建立语料模型,语料库将用于在专用名词提取的自动分析和提取中。
本发明为促进电力系统的标准化需要做相关的工作。根据党中央的政策,国家电网不停地对地区电力系统进行标准化,即包括电力系统转同名词的标准化。在新疆维吾尔自治区,这项工作包括电力系统中维吾尔专用名字,哈萨克专用名词和柯尔克孜专用名词的规范和更新。此外随着信息化的发展,各种少数民族语言的搜索引擎出现,该工作在对此有使用价值。除此之外,针对特定行业的机器翻译系统中也需要引入专用名词的提取和处理。考虑目前的情况,该工作助于首次试图为电力系统维吾尔语专用单词的标准化实现了专用名词提取方法,逐步推广到广播,银行和交通等的领域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆信息产业有限责任公司,未经新疆信息产业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210553916.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高速机械蜂窝式仿形取种排种器
- 下一篇:一种双作用机械式精量穴播器