[发明专利]一种基于词对齐的历史典籍分词方法有效
| 申请号: | 201710351463.6 | 申请日: | 2017-05-18 |
| 公开(公告)号: | CN107229611B | 公开(公告)日: | 2020-06-30 |
| 发明(设计)人: | 车超;吴晓婷 | 申请(专利权)人: | 大连大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289 |
| 代理公司: | 大连八方知识产权代理有限公司 21226 | 代理人: | 卫茂才 |
| 地址: | 116622 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对齐 历史 典籍 分词 方法 | ||
1.一种基于词对齐的历史典籍分词方法,其特征在于,包括以下步骤:
步骤1:对平行语料中的现代汉语进行分词,对古文进行逐字拆分,将古文和现代汉语使用IBM Model 3模型进行词对齐;
步骤2:对步骤1中得到的对齐结果进行预处理,消除标点符号及副词的干扰;
步骤3:根据步骤2中经预处理得到的对齐结果对古文单字进行合并;
步骤4:对合并结果中由三个或者三个以上的字构成的词在现代汉语翻译中进行查找,若成功找到,则视为分词结果正确;若未找到,说明该词合并有误,应当对其进行分割;
步骤5:如果步骤4中未找到改词的对应汉语,从该词的第一个字后开始分割,将产生的两个词段分别在现代汉语中进行查找比对;若成功找到,则保留分割结果,此时视为分割成功;若未找到,则继续从第二个词后分割,并以此类推,直到找到相匹配的词段。
2.根据权利要求1所述的一种基于词对齐的历史典籍分词方法,其特征在于,步骤2所述的对齐结果的预处理的具体步骤如下:
(1)对步骤1中获取的对齐结果进行逐条检验,删除对齐概率小于或等于零、古文单字或对应现代汉语为非汉字的对齐结果;
(2)对每条对齐结果中两个词或字的词性进行检验,若副词在对齐结果中对齐名词,则保留;反之,则删除。
3.根据权利要求1所述的一种基于词对齐的历史典籍分词方法,其特征在于,步骤3所述的古文单字合并的具体步骤如下:
(1)对已经拆分成单字的古汉语,逐字查询其对应的现代汉语,若相邻两个字均对应同一个现代汉语翻译,则合并这两个字;
(2)继续观察后面的单字,若依然对应同一个现代汉语,则继续合并;
直到下一个字不再和前面的词指向同一个汉语翻译为止;
(3)若单字是零到九的用于表示年代的数词,则对它们进行合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710351463.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:含硅碳膜的化学气相沉积的基态氢自由基源
- 下一篇:文件提交方法和装置





