[发明专利]一种汉语兼语结构获取方法有效
| 申请号: | 201510846489.9 | 申请日: | 2015-11-27 |
| 公开(公告)号: | CN106815188B | 公开(公告)日: | 2020-02-18 |
| 发明(设计)人: | 符建辉;王卫明;曹阳 | 申请(专利权)人: | 中科国力(镇江)智能技术有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284 |
| 代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
| 地址: | 212009 江苏省镇江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 汉语 结构 获取 方法 | ||
1.一种汉语兼语结构获取方法,其特征在于:包括以下步骤:
第一步:对原始训练语料库Corpus进行分词,形成分词语料库TCorpus;
采用一个开源的ICTCLAS系统对Corpus中的每篇输入文本D进行分词,并且将每篇文本按照句子的自然分割进行分拆,形成不含有句子标点符号的简单句;因此,TCorpus每个句子的形式为Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;
在分词算法中,词性的标记已经在计算机界通行;通常的词性有a表示形容词、b表示区别词、c表示连词、d表示副词、h表示前缀词、j表示简称词、k表示后缀词、m表示数词、n表示名词、p表示介词、q表示量词、r表示代词、u表示助词、z表示状态词;
第二步:识别分词语料库TCorpus中的每条语句Si中的动词或动词词组;
当出现“W1/v W2/v”,则按照“W1W2/v”进行合并处理,即将两个或两个以上的动词,合并为一个动词,称此过程为动词合并处理;在上述处理后,对修饰动词的副词进行消除处理,即将动词前的所有修饰副词全部删除;将处理后的语句仍放入TCorpus中;
第三步:应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中;
所述应用兼语模式对TCorpus中的语句进行分析,是指采用5种兼语模式,将TCorpus中的符合兼语模式之一的语句挑选出来,置入待验证的兼语结构库SOBase中;
对TCorpus中任一语句SOi,当它含有超过2的动词,或者仅含有1个动词,则放弃该句;否则,设SOi的形式为“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”,这里,下标i代表第i个语句意思;下面的主要任务是检查Ni,2是否满足5种兼语模式之一;如果满足5种兼语模式之一,则将二元对<“Vi,1…Vi,2”,“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”>放入SOBase中;否则,放弃SOi;
所述的5种兼语模式:设兼语句的一般形式为“N1 V1 N2 V2 N3”,其中N2即为兼语;在获取兼语结构时,仅考虑兼语N2满足以下模式的兼语语句,也就是,当语料库足够大时,兼语是其它形式的兼语句的兼语结构也能从兼语满足以下5种模式的兼语句中获得:
模式1:数词+名词;
模式2:数词+量词+名词;
模式3:{这,这场,这次,这个,这位,这种,这些,那,那场,那次,那个,那位,那种,那些,它,它们},该集合中的元素为常见代词,通常用于指代非生命的物体或者动物,其中的任何一个元素本身都是一个模式;
模式4:{这,这场,这次,这个,这位,这种,这些,那,那场,那次,那个,那位,那种,那些}+名词,这是一个由代词与名称构成的兼语模式;
模式5:{他,他们,我,我们,她,她们},该集合中的元素为常见代词,通常用于指代人物,其中的任何一个元素本身都是一个模式;
第四步:验证候选兼语结构库SOBase,并输出最终结果SOBaseResult;
对候选兼语结构库SOBase中的每条记录<“Vi,1…Vi,2”,“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”>,采用两种验证技术:兼语搭配常见性验证、兼语搭配多样性,它们都是确保兼语结构正确的必要条件;
所述兼语搭配常见性验证,是指当SOi=“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”是一个正确的兼语句,则兼语结构“Vi,1…Vi,2”在TCorpus中的其他语句中出现,而不是仅仅出现在兼语句SOi中;
所述兼语搭配多样性验证,是指如果SOi=“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”是一个正确的兼语句,那么形如SO′i=“N′i,1 Vi,1 N′i,2 Vi,2 N′i,3”、SO″i=“N″i,1 Vi,1 N″i,2 Vi,2 N″i,3”的兼语句在TCorpus也应该多次出现;
所述第四步的具体实施步骤为:
首先引入两个非负的阈值a和b,其中a∈(0,1],b∈(0,1]
步骤D1:设置SOBaseResult为空,用以保存验证过的、正确的兼语结构的结果;
步骤D2:如果SOBase空,则转步骤D6;
步骤D3:对SOBase中的任一一个记录<“Vi,1…Vi,2”,“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”>,将<“Vi,1…Vi,2”,“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”>从SOBase中取出;
步骤D4:如果cof(“Vi,1…Vi,2”)>a,那么将“Vi,1…Vi,2”放入集合SOBaseResult中,转步骤D2;
所述cof(“Vi,1…Vi,2”)反映了兼语结构“Vi,1…Vi,2”的常见性,它的计算如下:cof(“Vi,1…Vi,2”)=TCorpus含有“Vi,1…Vi,2”结构语句条数/TCorpus中的语句数;当cof(Vi,1…Vi,2)>a时,将“Vi,1…Vi,2”视为一个正确的兼语结构;
步骤D5:如果muf(“Vi,1…Vi,2”)>b,那么将“Vi,1…Vi,2”放入集合SOBaseResult中;所述muf(“Vi,1…Vi,2”)是一个刻画兼语搭配多样性的数学方法,它的计算子步骤如下:开始时,设置V*,1和V*,2为空集合;
步骤D51:在SOBase中,如果存在<“Vx…Vi,2”,“Ni,1 Vx Ni,2 Vi,2 Ni,3”>,那么将Vx放入集合V*,1中;
步骤D52:在SOBase中,如果存在<“Vi,1…Vy”,“Ni,1 Vi,1 Ni,2 Vy Ni,3”>,那么将Vy放入集合V*,2中;
步骤D53:计算muf(“Vi,1…Vi,2”):计算公式如下:
步骤D6:输出最终兼语结构结果SOBaseResult。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科国力(镇江)智能技术有限公司,未经中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510846489.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新术语识别方法
- 下一篇:一种汉语新动词识别方法





