[发明专利]一种汉语兼语结构获取方法有效
| 申请号: | 201510846489.9 | 申请日: | 2015-11-27 |
| 公开(公告)号: | CN106815188B | 公开(公告)日: | 2020-02-18 |
| 发明(设计)人: | 符建辉;王卫明;曹阳 | 申请(专利权)人: | 中科国力(镇江)智能技术有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284 |
| 代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
| 地址: | 212009 江苏省镇江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 汉语 结构 获取 方法 | ||
本发明涉及一种汉语兼语结构获取方法,包括对原始训练语料库Corpus进行分词,形成分词语料库TCorpus;识别分词语料库TCorpus中的每条语句Si中动词;应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中;验证候选兼语结构库SOBase,并输出最终结果SOBaseResult;本发明引入了兼语模式,可在不降低获取效果的前提下极大地控制兼语形式的复杂性。针对汉语构词和语句的复杂性,为确保兼语结构的准确性,本发明从“兼语结构搭配多样性”、“兼语结构搭配常见性”双重角度,对获得的兼语结构进行严格的验证。
技术领域
本发明涉及汉语自然语言处理、汉语语法结构自动识别领域,特别是涉及一种汉语兼语结构自动识别方法。
背景技术
汉语兼语句是一类特殊的语言现象。例如,给出以下三条语句(采用空格,并且标注了词性,这样便于突出句子中的兼语语境):
S1:“组委会/n邀请/v他们/r参加/v会议/n”
S2:“学校/n支持/v毕业生/n创业/v”
S3:“哪位/r让/v这/r只/q瓶子/n掉/v地上/s了/u?/w”
在S1中,“他们”是动词“邀请”的宾语,同时也是动词“参加”的主语,因此在S1中,“他们”是兼语。在S2中,“毕业生”是动词“支持”的宾语,同时也是动词“创业”的主语,因此在S2中,“毕业生”是兼语。同样,在S3中,“这只瓶子”是“让”的宾语,同时也是动词“掉”的主语,因此在S3中,“这只瓶子”是兼语。
从这三个典型的例子可以看出,汉语兼语句是一种常见的语言现象。30多年来,朱德熙、丁树声、黄伯荣、吕冀平、吴启生等国内知名学者从语法或语义角度对汉语兼语句进行了系统的研究,对人们认识汉语兼语句发挥了重要的作用。
除了理论研究价值、汉语教学和培训外,随着互联网应用的全面发展,兼语结构研究还具有许多重要的用途。
例如,汉语兼语结构可以用作语音识别中的语言模型的一部分,对自动创建这种语言模型具有重要的辅助作用。
又如,未登录词识别问题一直是一个重要的问题:给定一个词典,不在此词典出现的词称为未登录词。因为任何一部词典在开始时收词有限,需要在实际应用中不断地补充。未登录词识别或词典补充中的一个技术困难就是如何精确地确定未登录词的左右边界。
而如何通过对大语料处理和分析,从中有效地获取兼语结构,形成兼语结构库?如何验证哪些动词、在什么条件下与什么名词结合才能形成兼语结构?这些问题一直没有得到充分的关注和研究。
发明内容
针对如何通过对大语料处理和分析,从中有效地获取兼语结构,形成兼语结构库;如何验证哪些动词、在什么条件下与什么名词结合才能形成兼语结构的问题本发明提供了一种汉语兼语结构获取方法。
为了解决以上问题本发明采用了如下技术方案:
一种汉语兼语结构获取方法,其特征在于:包括以下步骤:
第一步:对原始训练语料库Corpus进行分词,形成分词语料库TCorpus;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科国力(镇江)智能技术有限公司,未经中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510846489.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新术语识别方法
- 下一篇:一种汉语新动词识别方法





