[发明专利]一种基于深度神经网络的汉盲自动转换方法和系统有效
| 申请号: | 201810889881.5 | 申请日: | 2018-08-07 |
| 公开(公告)号: | CN109241540B | 公开(公告)日: | 2020-09-15 |
| 发明(设计)人: | 王向东;蔡佳;钱跃良;刘宏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
| 地址: | 100080 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 神经网络 自动 转换 方法 系统 | ||
1.一种基于深度神经网络的汉盲自动转换方法,其特征在于,包括:
步骤1、获取句子和词语级对照的汉盲双语语料库,利用该汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用该汉盲双语语料库,得到用于对汉字进行标调的标调模型;
步骤2、获取待转换的汉字文本,使用该分词模型将该汉字文本按照盲文规则进行分词,得到多个字词,使用该标调模型对该字词进行标调,将标调后的该字词转换为盲文;
其中该步骤1包括:
语料标注步骤,获取句子和词语级对照的汉盲双语语料,根据汉盲双语语料中的汉字按照盲文分词及盲文与汉语字词的对应关系,为汉字进行类别标注,并根据汉盲双语语料中汉字对应的盲文标调信息,对汉盲双语语料中的汉字进行声调标注,将经过类别标注和声调标注的汉盲双语语料作为该汉盲双语语料库。
2.如权利要求1所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该步骤2包括:
分词步骤,将该汉字文本中的汉字转换为词向量后输入该分词模型,得到汉字属于各类别的概率,选择概率最大的类别作为汉字的状态,根据汉字的状态,将该汉字文本的汉语字串分隔,得到该多个字词;
标调步骤,标调模型根据该字词前具有的词或短语,得到该字词属于各标调形式的概率,选择概率最大的标调形式作为该字词的标调;
转换步骤,利用发音词典和发音-盲文映射表将标调后的该字词转换为盲文,转换过程中保留并复制其中的标调信息。
3.如权利要求1所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该步骤1中为汉字进行类别标注,该类别包括:B、E、M、S,其中B代表该汉字位于词的开头,M代表该汉字位于词的中间,E代表该汉字位于词的末尾,S代表该汉字单独成词。
4.如权利要求2所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该汉盲双语语料库存储有内容相同的汉语和盲文文本,且该汉盲双语语料库中每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。
5.一种基于深度神经网络的汉盲自动转换系统,其特征在于,包括:
模型训练模块,用于获取句子和词语级对照的汉盲双语语料库,利用该汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用该汉盲双语语料库,得到用于对汉字进行标调的标调模型;
转换模块,用于获取待转换的汉字文本,使用该分词模型将该汉字文本按照盲文规则进行分词,得到多个字词,使用该标调模型对该字词进行标调,将标调后的该字词转换为盲文;
其中该模型训练模块包括:
语料标注模块,获取句子和词语级对照的汉盲双语语料,根据汉盲双语语料中的汉字按照盲文分词及盲文与汉语字词的对应关系,为汉字进行类别标注,并根据汉盲双语语料中汉字对应的盲文标调信息,对汉盲双语语料中的汉字进行声调标注,将经过类别标注和声调标注的汉盲双语语料作为该汉盲双语语料库。
6.如权利要求5所述的基于深度神经网络的汉盲自动转换系统,其特征在于,该转换模块包括:
分词模块,将该汉字文本中的汉字转换为词向量后输入该分词模型,得到汉字属于各类别的概率,选择概率最大的类别作为汉字的状态,根据汉字的状态,将该汉字文本的汉语字串分隔,得到该多个字词;
标调模块,标调模型根据该字词前具有的词或短语,得到该字词属于各标调形式的概率,选择概率最大的标调形式作为该字词的标调;
转换模块,利用发音词典和发音-盲文映射表将标调后的该字词转换为盲文,转换过程中保留并复制其中的标调信息。
7.如权利要求5所述的基于深度神经网络的汉盲自动转换系统,其特征在于,该模型训练模块中为汉字进行类别标注,该类别包括:B、E、M、S,其中B代表该汉字位于词的开头,M代表该汉字位于词的中间,E代表该汉字位于词的末尾,S代表该汉字单独成词。
8.如权利要求5所述的基于深度神经网络的汉盲自动转换系统,其特征在于,该汉盲双语语料库存储有内容相同的汉语和盲文文本,且该汉盲双语语料库中每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810889881.5/1.html,转载请声明来源钻瓜专利网。





