[发明专利]机器学习人工智能翻译数据库的更新方法有效
| 申请号: | 201810873984.2 | 申请日: | 2018-08-02 |
| 公开(公告)号: | CN109241539B | 公开(公告)日: | 2023-09-08 |
| 发明(设计)人: | 王大江 | 申请(专利权)人: | 爱云保(上海)科技有限公司 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06F40/30;G06F16/33;G06F16/36;G06F16/23;G10L15/00;G10L15/06;G10L15/26 |
| 代理公司: | 成都贞元会专知识产权代理有限公司 51390 | 代理人: | 韩敏 |
| 地址: | 200050 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器 学习 人工智能 翻译 数据库 更新 方法 | ||
1.一种机器学习人工智能翻译数据库的更新方法,包括:
(10)以机器学习方式建立词语库;
(20)建立人工智能语音预测模型;
(30)将待翻译的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字;
(50)对译文文字进行校正,并根据校正结果更新所述词语库;
所述步骤(10)包括:利用机器学习方式,根据词典建立外文词语和与该外文词语对应的中文含义的词语之间的第一关联,其中中文词语的译文为多个时以词典中的第一顺序位置标识的中文译文词语为主要中文译文词语而之后顺序位置的中文译文词语作为次要中文译文词语;
所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引;
所述步骤(201)包括:根据外文文章以无监督学习方式进行机器学习;
所述步骤(201)包括:采用随机梯度下降法对外文文章及其译文进行机器学习;
所述步骤(202)包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引;
其特征在于,所述以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语构成集合{Sm,pm},则以词语Cj为主键,其中pm是词语Sm出现在Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
且为以为均值、ξm为方差的m阶对角阵,
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的匹配度:
计算其中p’表示对p进行差分;
计算是否小于第一预设阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值,则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算是否小于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了其最大值,则令m=1。
2.根据权利要求1所述的方法,其特征在于,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
3.根据权利要求1所述的方法,其特征在于,所述步骤(40)包括:
基于STT技术利用中文译文词语产生语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于爱云保(上海)科技有限公司,未经爱云保(上海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810873984.2/1.html,转载请声明来源钻瓜专利网。





