[发明专利]一种汉语兼语结构获取方法有效

专利信息
申请号: 201510846489.9 申请日: 2015-11-27
公开(公告)号: CN106815188B 公开(公告)日: 2020-02-18
发明(设计)人: 符建辉;王卫明;曹阳 申请(专利权)人: 中科国力(镇江)智能技术有限公司
主分类号: G06F40/284 分类号: G06F40/284
代理公司: 南京知识律师事务所 32207 代理人: 高娇阳
地址: 212009 江苏省镇江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 汉语 结构 获取 方法
【权利要求书】:

1.一种汉语兼语结构获取方法,其特征在于:包括以下步骤:

第一步:对原始训练语料库Corpus进行分词,形成分词语料库TCorpus;

采用一个开源的ICTCLAS系统对Corpus中的每篇输入文本D进行分词,并且将每篇文本按照句子的自然分割进行分拆,形成不含有句子标点符号的简单句;因此,TCorpus每个句子的形式为Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;

在分词算法中,词性的标记已经在计算机界通行;通常的词性有a表示形容词、b表示区别词、c表示连词、d表示副词、h表示前缀词、j表示简称词、k表示后缀词、m表示数词、n表示名词、p表示介词、q表示量词、r表示代词、u表示助词、z表示状态词;

第二步:识别分词语料库TCorpus中的每条语句Si中的动词或动词词组;

当出现“W1/v W2/v”,则按照“W1W2/v”进行合并处理,即将两个或两个以上的动词,合并为一个动词,称此过程为动词合并处理;在上述处理后,对修饰动词的副词进行消除处理,即将动词前的所有修饰副词全部删除;将处理后的语句仍放入TCorpus中;

第三步:应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中;

所述应用兼语模式对TCorpus中的语句进行分析,是指采用5种兼语模式,将TCorpus中的符合兼语模式之一的语句挑选出来,置入待验证的兼语结构库SOBase中;

对TCorpus中任一语句SOi,当它含有超过2的动词,或者仅含有1个动词,则放弃该句;否则,设SOi的形式为“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”,这里,下标i代表第i个语句意思;下面的主要任务是检查Ni,2是否满足5种兼语模式之一;如果满足5种兼语模式之一,则将二元对<“Vi,1…Vi,2”,“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”>放入SOBase中;否则,放弃SOi

所述的5种兼语模式:设兼语句的一般形式为“N1 V1 N2 V2 N3”,其中N2即为兼语;在获取兼语结构时,仅考虑兼语N2满足以下模式的兼语语句,也就是,当语料库足够大时,兼语是其它形式的兼语句的兼语结构也能从兼语满足以下5种模式的兼语句中获得:

模式1:数词+名词;

模式2:数词+量词+名词;

模式3:{这,这场,这次,这个,这位,这种,这些,那,那场,那次,那个,那位,那种,那些,它,它们},该集合中的元素为常见代词,通常用于指代非生命的物体或者动物,其中的任何一个元素本身都是一个模式;

模式4:{这,这场,这次,这个,这位,这种,这些,那,那场,那次,那个,那位,那种,那些}+名词,这是一个由代词与名称构成的兼语模式;

模式5:{他,他们,我,我们,她,她们},该集合中的元素为常见代词,通常用于指代人物,其中的任何一个元素本身都是一个模式;

第四步:验证候选兼语结构库SOBase,并输出最终结果SOBaseResult;

对候选兼语结构库SOBase中的每条记录<“Vi,1…Vi,2”,“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”>,采用两种验证技术:兼语搭配常见性验证、兼语搭配多样性,它们都是确保兼语结构正确的必要条件;

所述兼语搭配常见性验证,是指当SOi=“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”是一个正确的兼语句,则兼语结构“Vi,1…Vi,2”在TCorpus中的其他语句中出现,而不是仅仅出现在兼语句SOi中;

所述兼语搭配多样性验证,是指如果SOi=“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”是一个正确的兼语句,那么形如SO′i=“N′i,1 Vi,1 N′i,2 Vi,2 N′i,3”、SO″i=“N″i,1 Vi,1 N″i,2 Vi,2 N″i,3”的兼语句在TCorpus也应该多次出现;

所述第四步的具体实施步骤为:

首先引入两个非负的阈值a和b,其中a∈(0,1],b∈(0,1]

步骤D1:设置SOBaseResult为空,用以保存验证过的、正确的兼语结构的结果;

步骤D2:如果SOBase空,则转步骤D6;

步骤D3:对SOBase中的任一一个记录<“Vi,1…Vi,2”,“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”>,将<“Vi,1…Vi,2”,“Ni,1 Vi,1 Ni,2 Vi,2 Ni,3”>从SOBase中取出;

步骤D4:如果cof(“Vi,1…Vi,2”)>a,那么将“Vi,1…Vi,2”放入集合SOBaseResult中,转步骤D2;

所述cof(“Vi,1…Vi,2”)反映了兼语结构“Vi,1…Vi,2”的常见性,它的计算如下:cof(“Vi,1…Vi,2”)=TCorpus含有“Vi,1…Vi,2”结构语句条数/TCorpus中的语句数;当cof(Vi,1…Vi,2)>a时,将“Vi,1…Vi,2”视为一个正确的兼语结构;

步骤D5:如果muf(“Vi,1…Vi,2”)>b,那么将“Vi,1…Vi,2”放入集合SOBaseResult中;所述muf(“Vi,1…Vi,2”)是一个刻画兼语搭配多样性的数学方法,它的计算子步骤如下:开始时,设置V*,1和V*,2为空集合;

步骤D51:在SOBase中,如果存在<“Vx…Vi,2”,“Ni,1 Vx Ni,2 Vi,2 Ni,3”>,那么将Vx放入集合V*,1中;

步骤D52:在SOBase中,如果存在<“Vi,1…Vy”,“Ni,1 Vi,1 Ni,2 Vy Ni,3”>,那么将Vy放入集合V*,2中;

步骤D53:计算muf(“Vi,1…Vi,2”):计算公式如下:

步骤D6:输出最终兼语结构结果SOBaseResult。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科国力(镇江)智能技术有限公司,未经中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510846489.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top