[发明专利]一种汉语兼语结构获取方法有效

申请号：	201510846489.9	申请日：	2015-11-27
公开（公告）号：	CN106815188B	公开（公告）日：	2020-02-18
发明（设计）人：	符建辉;王卫明;曹阳	申请（专利权）人：	中科国力（镇江）智能技术有限公司
主分类号：	G06F40/284	分类号：	G06F40/284
代理公司：	南京知识律师事务所 32207	代理人：	高娇阳
地址：	212009 江苏省镇江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种汉语结构获取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种汉语兼语结构获取方法，其特征在于：包括以下步骤：

第一步：对原始训练语料库Corpus进行分词，形成分词语料库TCorpus；

采用一个开源的ICTCLAS系统对Corpus中的每篇输入文本D进行分词，并且将每篇文本按照句子的自然分割进行分拆，形成不含有句子标点符号的简单句；因此，TCorpus每个句子的形式为S_i＝“W₁/pos₁W₂/pos₂…W_i/pos_i…W_n/pos_n”，其中每个W_i是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母，pos_i是其对应的词性；

在分词算法中，词性的标记已经在计算机界通行；通常的词性有a表示形容词、b表示区别词、c表示连词、d表示副词、h表示前缀词、j表示简称词、k表示后缀词、m表示数词、n表示名词、p表示介词、q表示量词、r表示代词、u表示助词、z表示状态词；

第二步：识别分词语料库TCorpus中的每条语句S_i中的动词或动词词组；

当出现“W₁/v W₂/v”，则按照“W₁W₂/v”进行合并处理，即将两个或两个以上的动词，合并为一个动词，称此过程为动词合并处理；在上述处理后，对修饰动词的副词进行消除处理，即将动词前的所有修饰副词全部删除；将处理后的语句仍放入TCorpus中；

第三步：应用兼语模式对TCorpus中的语句进行分析，对满足兼语模式的语句形成候选兼语结构，并且置入待验证的兼语结构库SOBase中；

所述应用兼语模式对TCorpus中的语句进行分析，是指采用5种兼语模式，将TCorpus中的符合兼语模式之一的语句挑选出来，置入待验证的兼语结构库SOBase中；

对TCorpus中任一语句SO_i，当它含有超过2的动词，或者仅含有1个动词，则放弃该句；否则，设SO_i的形式为“N_i，1 V_i，1 N_i，2 V_i，2 N_i，3”，这里，下标i代表第i个语句意思；下面的主要任务是检查N_i，2是否满足5种兼语模式之一；如果满足5种兼语模式之一，则将二元对<“V_i，1…V_i，2”，“N_i，1 V_i，1 N_i，2 V_i，2 N_i，3”>放入SOBase中；否则，放弃SO_i；

所述的5种兼语模式：设兼语句的一般形式为“N₁ V₁ N₂ V₂ N₃”，其中N₂即为兼语；在获取兼语结构时，仅考虑兼语N₂满足以下模式的兼语语句，也就是，当语料库足够大时，兼语是其它形式的兼语句的兼语结构也能从兼语满足以下5种模式的兼语句中获得：

模式1：数词+名词；

模式2：数词+量词+名词；

模式3：{这，这场，这次，这个，这位，这种，这些，那，那场，那次，那个，那位，那种，那些，它，它们}，该集合中的元素为常见代词，通常用于指代非生命的物体或者动物，其中的任何一个元素本身都是一个模式；

模式4：{这，这场，这次，这个，这位，这种，这些，那，那场，那次，那个，那位，那种，那些}+名词，这是一个由代词与名称构成的兼语模式；

模式5：{他，他们，我，我们，她，她们}，该集合中的元素为常见代词，通常用于指代人物，其中的任何一个元素本身都是一个模式；

第四步：验证候选兼语结构库SOBase，并输出最终结果SOBaseResult；

对候选兼语结构库SOBase中的每条记录<“V_i，1…V_i，2”，“N_i，1 V_i，1 N_i，2 V_i，2 N_i，3”>，采用两种验证技术：兼语搭配常见性验证、兼语搭配多样性，它们都是确保兼语结构正确的必要条件；

所述兼语搭配常见性验证，是指当SO_i＝“N_i，1 V_i，1 N_i，2 V_i，2 N_i，3”是一个正确的兼语句，则兼语结构“V_i，1…V_i，2”在TCorpus中的其他语句中出现，而不是仅仅出现在兼语句SO_i中；

所述兼语搭配多样性验证，是指如果SO_i＝“N_i，1 V_i，1 N_i，2 V_i，2 N_i，3”是一个正确的兼语句，那么形如SO′_i＝“N′_i，1 V_i，1 N′_i，2 V_i，2 N′_i，3”、SO″_i＝“N″_i，1 V_i，1 N″_i，2 V_i，2 N″_i，3”的兼语句在TCorpus也应该多次出现；

所述第四步的具体实施步骤为：

首先引入两个非负的阈值a和b，其中a∈(0，1]，b∈(0，1]

步骤D1：设置SOBaseResult为空，用以保存验证过的、正确的兼语结构的结果；

步骤D2：如果SOBase空，则转步骤D6；

步骤D3：对SOBase中的任一一个记录＜“V_i，1…V_i，2”，“N_i，1 V_i，1 N_i，2 V_i，2 N_i，3”>，将<“V_i，1…V_i，2”，“N_i，1 V_i，1 N_i，2 V_i，2 N_i，3”>从SOBase中取出；

步骤D4：如果cof(“V_i，1…V_i，2”)>a，那么将“V_i，1…V_i，2”放入集合SOBaseResult中，转步骤D2；

所述cof(“V_i，1…V_i，2”)反映了兼语结构“V_i，1…V_i，2”的常见性，它的计算如下：cof(“V_i，1…V_i，2”)＝TCorpus含有“V_i，1…V_i，2”结构语句条数/TCorpus中的语句数；当cof(V_i，1…V_i，2)>a时，将“V_i，1…V_i，2”视为一个正确的兼语结构；

步骤D5：如果muf(“V_i，1…V_i，2”)>b，那么将“V_i，1…V_i，2”放入集合SOBaseResult中；所述muf(“V_i，1…V_i，2”)是一个刻画兼语搭配多样性的数学方法，它的计算子步骤如下：开始时，设置V_*，1和V_*，2为空集合；

步骤D51：在SOBase中，如果存在<“V_x…V_i，2”，“N_i，1 V_x N_i，2 V_i，2 N_i，3”>，那么将V_x放入集合V_*，1中；

步骤D52：在SOBase中，如果存在<“V_i，1…V_y”，“N_i，1 V_i，1 N_i，2 V_y N_i，3”>，那么将V_y放入集合V_*，2中；

步骤D53：计算muf(“V_i，1…V_i，2”)：计算公式如下：

步骤D6：输出最终兼语结构结果SOBaseResult。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科国力（镇江）智能技术有限公司，未经中科国力（镇江）智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510846489.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汉语兼语结构获取方法有效

专利文献下载