[发明专利]一种面向机器翻译的多策略英文长句分割方法有效

申请号：	201510441708.5	申请日：	2015-07-24
公开（公告）号：	CN105068990B	公开（公告）日：	2017-12-19
发明（设计）人：	冯冲;杨书立;黄河燕	申请（专利权）人：	北京理工大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/28
代理公司：	北京理工正阳知识产权代理事务所(普通合伙)11639	代理人：	唐华
地址：	100081 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向机器翻译策略英文长句分割方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向机器翻译的多策略英文长句分割方法，其特征在于，包括训练步骤以及分割步骤，具体如下：

训练步骤：

步骤一、训练语料预处理：对训练语料进行预处理，包括挑选符合标准的英文句子、英文断词、去掉乱码和特殊符号，得到训练语料C_T；

步骤二、特征提取：分别对C_T中的每一个句子进行特征提取，包括进行依存句法分析和进行词性标注得到依存句法标注特征和词性标注特征；

步骤三、对每一个句子按如下规则进行逗号标注：将逗号之前的那个词标注为COM，其余的词标注为NUL；

步骤四、CRF模型训练：创建特征模版，使用特征模版与步骤二得到的语料特征，训练CRF模型M，将M永久保存；

分割步骤：

步骤一、预处理：对于待处理的英文长句进行如下预处理得到规范化的英文长句S：英文断词、去掉乱码和特殊符号；

步骤二、特征提取：对S进行依存句法分析和词性标注得到依存句法标注特征和词性标注特征；

步骤三、使用规则方法的分割：使用预定义的规则识别简单的语言现象，如果句中存在这样的现象，再用预设的算法处理步骤二提取到的特征，获得逗号插入位置P₁；

步骤三、使用CRF方法的分割：将步骤二中的特征与训练步骤得到的CRF模型M，共同交给CRF算法进行解码，给句子的每个词标注COM或NUL，得到逗号插入位置P₂；

步骤四、在P₁和P₂这些位置插入逗号，完成句子分割，并将分割后的句子输出；

所述预定义的规则如下所述：

规则1、介词短语的识别：引导词是介词；除了引导词，介词短语中所有词的依存句法标注只依赖于介词短语中的其他词，介词短语以外的词不依赖于介词短语中的词；

规则2、副词性从句的识别：引导词的依存句法标注依赖于副词性从句的动词；除了副词性从句的动词，副词性从句中的其他词只依赖于副词性从句中的词，副词性从句以外的词不依赖于副词性从句中的词；

所述预设的算法如下所述：

Step1：初始化两个集合leftList与rightList：leftList用于存放位于短语或从句中的词，rightList用于存放句中的其他词，对于处理介词短语的情况，leftList初始化存放介词短语的引导介词；对于处理副词性从句的情况，leftList初始化存放从句的引导词和从句的动词；

Step2：从句子的第一个词开始，遍历句中的每个词，记当前词为W_cur，W_cur在依存句法上所依赖的词为W_cur.dep；

Step3：如果W_cur在leftList中，则跳过该词，返回Step2继续处理下一词；

Step4：如果W_cur.dep在leftList中，则把W_cur放入leftList，然后转到Step5；如果W_cur.dep不在leftList中，则把W_cur放入rightList，然后回到Step2；如果所有词都遍历过，则跳到Step6；

Step5：重复遍历rightList中的每个词W_r，直到rightList中的词不再变化为止：如果W_r在依存句法上的依赖词W_r.dep在leftList中，则把W_r从rightList移入leftList中；如果rightList中的词不再减少，则回到Step2；

Step6：如果leftList中词的个数大于预设的阈值m，则分割点为leftList中序号最小词的前一位置与序号最大词的后一位置，如果得到的位置上有其他标点符号，则去除该位置；否则，没有分割点，输出空集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510441708.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载