[发明专利]一种基于词对齐的历史典籍分词方法有效

专利信息
申请号: 201710351463.6 申请日: 2017-05-18
公开(公告)号: CN107229611B 公开(公告)日: 2020-06-30
发明(设计)人: 车超;吴晓婷 申请(专利权)人: 大连大学
主分类号: G06F40/289 分类号: G06F40/289
代理公司: 大连八方知识产权代理有限公司 21226 代理人: 卫茂才
地址: 116622 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 对齐 历史 典籍 分词 方法
【权利要求书】:

1.一种基于词对齐的历史典籍分词方法,其特征在于,包括以下步骤:

步骤1:对平行语料中的现代汉语进行分词,对古文进行逐字拆分,将古文和现代汉语使用IBM Model 3模型进行词对齐;

步骤2:对步骤1中得到的对齐结果进行预处理,消除标点符号及副词的干扰;

步骤3:根据步骤2中经预处理得到的对齐结果对古文单字进行合并;

步骤4:对合并结果中由三个或者三个以上的字构成的词在现代汉语翻译中进行查找,若成功找到,则视为分词结果正确;若未找到,说明该词合并有误,应当对其进行分割;

步骤5:如果步骤4中未找到改词的对应汉语,从该词的第一个字后开始分割,将产生的两个词段分别在现代汉语中进行查找比对;若成功找到,则保留分割结果,此时视为分割成功;若未找到,则继续从第二个词后分割,并以此类推,直到找到相匹配的词段。

2.根据权利要求1所述的一种基于词对齐的历史典籍分词方法,其特征在于,步骤2所述的对齐结果的预处理的具体步骤如下:

(1)对步骤1中获取的对齐结果进行逐条检验,删除对齐概率小于或等于零、古文单字或对应现代汉语为非汉字的对齐结果;

(2)对每条对齐结果中两个词或字的词性进行检验,若副词在对齐结果中对齐名词,则保留;反之,则删除。

3.根据权利要求1所述的一种基于词对齐的历史典籍分词方法,其特征在于,步骤3所述的古文单字合并的具体步骤如下:

(1)对已经拆分成单字的古汉语,逐字查询其对应的现代汉语,若相邻两个字均对应同一个现代汉语翻译,则合并这两个字;

(2)继续观察后面的单字,若依然对应同一个现代汉语,则继续合并;

直到下一个字不再和前面的词指向同一个汉语翻译为止;

(3)若单字是零到九的用于表示年代的数词,则对它们进行合并。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710351463.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top