[发明专利]一种古汉语文本的一体化自动词法分析方法及系统有效
申请号: | 201910085019.3 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109829159B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 李斌;程宁;葛四嘉;李成名;郝星月;冯敏萱;许超 | 申请(专利权)人: | 南京师范大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王恒静 |
地址: | 210024 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 古汉语 文本 一体化 自动 词法 分析 方法 系统 | ||
1.一种古汉语文本的一体化自动词法分析方法,其特征在于,该方法包括以下步骤:
(1)对选取的古汉语训练语料进行预处理,所述预处理包括断句、分词和词性的一体化标注;
(2)采用Word2vec模型对所述古汉语训练语料进行字向量的预训练,得到预训练字向量;
(3)将历朝历代文献中出现过的人名、地名、书名、朝代、年号和官职信息数据加入到古籍专名数据库中形成若干专有名词词条,筛选专有名词词条加入到古汉语训练语料中,得到最终训练语料;
所述步骤(3)还包括将所述专有名词词条与所述步骤(1)中已标注语料进行匹配计算,统计每个所述专有名词词条的置信度,并将置信度低的专有名词词条筛选出;
所述匹配计算具体包括:
(31)统计每个专有名词词条作为纯字符串在所述已标注语料中出现的次数,记为A;
(32)统计每个专有名词词条作为一个词且标注为专有名词词性的词例在所述已标注语料中出现的次数,记为B;
(33)统计每个专有名词作为一个独立运用的词且词性不属于专有名词的词例在所述已标注语料中出现的次数,记为C;
(34)当A=B=C=0时,该专有名词词条的置信度为0,否则:
若该专有名词词长等于1且B/A=1,则该专有名词词条的置信度为1,否则为-1;
若该专有名词词长大于1:如果B/A=1,且C/B<1,则该专有名词词条的置信度为1;如果B/A<0.1或C/B>1,该专有名词词条的置信度为-1;如果0.1<B/A<1且C/B<1,则该专有名词词条的置信度为0;
(4)将所述最终训练语料加载到Bi-LSTM-CRF神经网络模型中,并与加载到Bi-LSTM-CRF神经网络模型中的所述预训练字向量进行映射,调整Bi-LSTM-CRF神经网络模型的各参数,不断迭代学习,对测试语料的标注结果进行自动评价,生成相关的日志文档。
2.根据权利要求1所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述步骤(2)采用Word2vec模型对大规模的古汉语生语料进行字向量的预训练,得到与其他字向量具有语义相似程度的固定维度的字向量。
3.根据权利要求2所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述步骤(1)中,一体化标注是将词性标签、分词标签以及断句标签融合,具体表示为每个字后标记其对应在词中的位置、其所代表的词的词性或者实体信息以及词性标记后的所述字是否在断句处的标记。
4.根据权利要求3所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述分词标签包括B、I、E、S,其中,B代表当前字占据一个多字词的词首,I代表当前字占据一个多字词的词中,E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词。
5.根据权利要求4所述的古汉语文本的一体化自动词法分析方法,其特征在于,所述断句标签包括L和O,其中,L代表当前字处于断句处,O代表当前字不是处在断句处。
6.一种根据权利要求1-5任一项所述的古汉语文本的一体化自动词法分析方法实现的古汉语文本的一体化自动词法分析系统,其特征在于,包括:
训练语料预处理模块,用于对选取的古汉语训练语料进行预处理,所述预处理包括断句、分词和词性的一体化标注;
字向量预训练模块,用于采用Word2vec模型对所述古汉语训练语料进行字向量的预训练,得到预训练字向量;
专名数据库构建模块,用于将历朝历代文献中出现过的人名、地名、书名、朝代、年号和官职信息数据加入到古籍专名数据库中形成若干专有名词词条,将筛选后的专有名词词条加入到训练语料中,得到最终训练语料;
词法分析模块,用于将所述最终训练语料加载到Bi-LSTM-CRF神经网络模型中,并与加载到所述Bi-LSTM-CRF神经网络模型中的所述预训练字向量进行映射,调整Bi-LSTM-CRF神经网络模型的各参数,不断迭代学习,对测试语料的标注结果进行自动评价,生成相关的日志文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910085019.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:核心专利挖掘方法
- 下一篇:一种陌生人社交活动评价方法与系统