[发明专利]用BIRCH聚类算法对四川口音和英语进行翻译的方法在审
| 申请号: | 201710174084.4 | 申请日: | 2017-03-22 |
| 公开(公告)号: | CN108628848A | 公开(公告)日: | 2018-10-09 |
| 发明(设计)人: | 邱念 | 申请(专利权)人: | 湖南本来文化发展有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F9/50;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 410000 湖南省*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 翻译 大数据库 聚类算法 英语 音频输出设备 音频输入设备 采集 规约 部首偏旁 基础字母 平衡迭代 文字结构 文字排列 用户提供 语法规律 聚类 释义 语法 疲劳 汉语 英文 替代 | ||
本发明公开了一种用BIRCH聚类算法对四川口音和英语进行翻译的方法,包括:1)音频输入设备;2)音频输出设备;3)采集的四川口音音频大数据库;4)采集的英语音频大数据库;5)由26个基础字母构成的英文文字排列组合及其释义与语法规律的大数据库;6)由部首偏旁构成的汉语文字结构及文字构成语法的大数据库;7)利用层次方法的平衡迭代规约和聚类即BIRCH聚类算法的翻译模型,通过上述部件,本发明能够替代高薪资的高级英汉同传翻译,为用户提供价格低廉且可不惧疲劳能够进行长时间高质量翻译的可将四川话翻译成英语或将英语翻译成四川话的翻译。
技术领域
本发明涉及BIRCH聚类算法用于翻译的领域,特别是涉及用BIRCH聚类算法对四川口音和英语进行翻译的方法。
背景技术
随着国际化进程的加快,翻译的需求日益增多,而现有的同传翻译是由人来完成,专业的同传翻译人员劳动强度大,翻译准确度易受到个人身体因素的影响,在国际会议中,如果会议的持续时间长,翻译人员的体力和精力不断透支后,将会因疲劳使得翻译的准确度下降;在个人出国旅游时,由于专业的同传翻译薪资水平高,一般普通群众较难以接受携带翻译人员出行;对于四川口音较重,且普通话发音不标准的人,在翻译其语句时,若翻译人员为国外不懂四川口音的人员,则极易产生错误从而造成损失。
发明内容
本发明主要解决的技术问题是提供一种用BIRCH聚类算法对四川口音和英语进行翻译的方法,能够替代高薪资的高级翻译,为用户提供不会因为翻译时间长而因疲劳导致的翻译错误,且能够识别用户的四川口音,避免用户不会说普通话,翻译人员又不懂四川口音的尴尬局面。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种用BIRCH聚类算法对四川口音和英语进行翻译的方法,其特征在于,包括:1)四川口音的音频输入设备、2)翻译成英语的音频输出设备、3)采集的四川口音音频大数据库、4)采集的英语音频大数据、5)由26个基础字母构成的英文文字排列组合及其释义与语法规律的大数据库、6)由部首偏旁构成的汉语文字结构及文字构成语法的大数据库、7)利用层次方法的平衡迭代规约和聚类即BIRCH聚类算法的翻译模型,七个部件;通过上述七个部件,本发明能够替代高薪资的高级英汉同传翻译,为用户提供价格低廉且可不惧疲劳能够进行长时间高质量翻译的可将四川话翻译成英语或将英语翻译成四川话的翻译。
用BIRCH聚类算法对四川口音和英语进行翻译的方法,在构建BIRCH聚类树时采用的方法为欧几里得距离函数和曼哈顿距离函数,具体公式如下:
CF tree的结构类似于一棵B-树,它有两个参数:内部节点平衡因子B,叶节点平衡因子L,簇半径阈值T。树中每个节点最多包含B个孩子节点,记为(CFi,CHILDi),1<=i<=B,CFi是这个节点中的第i个聚类特征,CHILDi指向节点的第i个孩子节点,对应于这个节点的第i个聚类特征;需特别注意的是:构建CF树的过程中,一个重要的参数是簇半径阈值T,因为它决定了CF tree的规模,从而让CF tree适应当前在云计算中心为BIRCH模型分配的内存的大小。如果T太小,那么簇的数量将会非常的大,从而导致树节点数量也会增大,这样可能会导致所有数据点还没有扫描完之前内存就不够用了,同时翻译的准确率与T值和所分配的内存大小成正比关系,此处内存不得小于100TB。
具体实施方式
在一个实施例中,说四川口音的用户A对着翻译器音频输入设备说出一句四川话,通过网络将该语音信息传输至云计算中心的BRICH聚类算法模型中,与深度学习后的大数据进行比对后,将翻译成英语的音频信息同步传输至翻译器音频输出设备,用户B使用该设备听到了对用户A说话内容的同传翻译的英语发音。
在另一个实施例中,说英语的用户B对着翻译器音频输入设备说出一句英语,通过网络将该语音信息传输至云计算中心的BRICH聚类算法模型中,与深度学习后的大数据进行比对后,将翻译成四川口音的音频信息同步传输至翻译器音频输出设备,用户A使用该设备听到了对用户B说话内容的同传翻译的四川口音的翻译音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南本来文化发展有限公司,未经湖南本来文化发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710174084.4/2.html,转载请声明来源钻瓜专利网。





