[发明专利]一种添加标点的方法和系统有效
| 申请号: | 201310198454.X | 申请日: | 2013-05-24 |
| 公开(公告)号: | CN104143331A | 公开(公告)日: | 2014-11-12 |
| 发明(设计)人: | 刘海波;王尔玉;张翔;卢鲤;岳帅;陈波;李露;刘荐 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L15/18 | 分类号: | G10L15/18;G06F17/27 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张玉波;宋志强 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 添加 标点 方法 系统 | ||
技术领域
本申请涉及信息处理技术领域,尤其涉及一种添加标点的方法和系统。
背景技术
在通信领域以及互联网领域,在某些应用场景中需要为一些缺少标点的文件添加标点,例如,为语音文件添加标点。
关于为语音文件添加标点,目前存在着一种基于分字处理以及每个字所处位置来添加标点的方案。
在所述方案中,预先对语料库中的语句进行分字处理,确定每个字在语句中所处的位置,即是处于句子的开始、中间还是结束,并确定每个字后面的标点符号情况,例如有无标点符号等,根据语料库中每个字所处的位置以及每个字后面的标点符号情况建立语言模型,在实际添加标点的过程中,将待处理语音文件作为一个整体,根据该待处理语音文件中出现的每个字,利用基于分字建立的语言模型为所述待处理语音文件添加标点。
可见,利用单个字在句子中的位置以及单个字后面是否有标点来建立语言模型,由于所利用的信息有限,且所利用的信息与标点状态的关联性不强,因此所建立的语言模型并不能提取出语句所蕴含的信息与语句的标点状态之间的真实关系,并且,将待处理语音文件简单地作为一个整体来添加标点,也没有考虑到待处理语音文件内部的结构特征,因此,综合上述因素,导致目前为语音文件添加标点的准确性仍然较低。
发明内容
本发明提供了一种添加标点的方法和系统,能够提高添加标点的准确性。
一种添加标点的方法,该方法包括:
将待处理语音文件作为整体,根据作为整体的所述待处理语音文件中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1;
基于静音检测将所述待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2;
利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重;
对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。
一种添加标点的系统,该系统包括静音检测模块、识别模块和标点添加模块;
所述静音检测模块,用于基于静音检测将待处理语音文件分为一个以上的待处理语段;
所述识别模块,用于将待处理语音文件作为整体,根据作为整体的所述待处理语音文件中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1,根据每个所述待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2;
所述标点添加模块,用于利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重,对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。
由上述技术方案可见,由于本发明在添加标点所利用的语言模型是基于分词和词语的语义特征建立的,由于进行的是分词处理而非分字处理,并且进一步利用词在语句中的语义特征,由于词在语句中的语义特征往往与词的标点状态有着较强的关联性,因此,通过基于对语料库进行分词和词在所述语料库中的语义特征来建立语言模型,能够提取出语句中所蕴含的信息(即所包含的词和词的语义特征)与语句的标点状态的真实关系,进而能够提高添加标点的准确性。
并且,由于本发明在利用基于分词和词语的语义特征建立的语言模型为待处理语音文件添加标点时,在将待处理语音文件作为整体确定待处理语音文件的各种标点状态的综合权重(记为第一综合权重)的同时,还考虑了所述语言文件的内部结构特征,通过静音检测将待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征确定待处理语音文件的各种标点状态的综合权重(记为第二综合权重),通过对所述第一综合权重和第二综合权重进行加权处理第三综合权重,根据第三综合权重为待处理语音文件添加标点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310198454.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音质优化方法
- 下一篇:一种关键词检测方法和装置





