[发明专利]处理文件的方法和装置在审
| 申请号: | 201910169500.0 | 申请日: | 2019-03-06 |
| 公开(公告)号: | CN111667813A | 公开(公告)日: | 2020-09-15 |
| 发明(设计)人: | 周舟 | 申请(专利权)人: | 北京精鸿软件科技有限公司 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L15/02;G10L15/08;G10L15/26;G10L19/00;G06F40/289;G06F16/33 |
| 代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 范华英;毛威 |
| 地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 处理 文件 方法 装置 | ||
1.一种处理文件的方法,其特征在于,包括:
将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件;
在所述第一音节文件中,查找第一音节,其中,所述第一音节为所述目标文本文件中的第一词组的音节;
在所述第二音节文件中,查找与所述第一音节相同的第二音节;
在所述参考文本文件中,查找所述第二音节对应的第二词组;
利用所述第二词组,修正所述第一词组。
2.根据权利要求1所述的方法,其特征在于,在所述在所述第一音节文件中,查找第一音节之前,所述方法还包括:
确定是否修正所述第一词组,所述第一词组包括连续的至少两个词组;
所述在所述第一音节文件中,查找第一音节,包括:
当确定修正所述第一词组时,在所述第一音节文件中查找所述第一音节;
其中,所述利用所述第二词组,修正所述第一词组,包括:
利用所述第二词组,修正所述至少两个词组中的至少部分词组。
3.根据权利要求2所述的方法,其特征在于,所述确定是否修正所述第一词组,包括:
对所述第一词组进行评分,以获取评分结果;
根据所述评分结果,确定是否修正所述第一词组。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一词组进行评分,包括:
利用评分模型对所述第一词组进行评分,所述评分模型包括文本向量化模型。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述利用所述第二词组,修正所述第一词组之后,所述方法还包括:
将所述目标文本文件中的词组和所述参考文本文件的至少部分词组进行匹配,以获取匹配结果;
根据所述匹配结果,对所述目标文本文件进行打分。
6.根据权利要求5所述的方法,其特征在于,在所述将所述目标文本文件中的词组和所述参考文本文件的至少部分词组进行匹配,以获取匹配结果之前,所述方法还包括:
确定所述参考文本文件中的词组的权重;
根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的所述至少部分词组。
7.根据权利要求6所述的方法,其特征在于,所述确定所述参考文本文件中的词组的权重,包括:
利用算法,确定所述参考文本文件中的词组的权重,所述算法为词频-逆文本频率指数算法。
8.根据权利要求1至7中任一项所述的方法,其特征在于,在所述将目标文本文件转换为第一音节文件之前,所述方法还包括:对所述目标文本文件进行分词;
所述将目标文本文件转换为第一音节文件,包括:
将所述目标文本文件的名词转换为所述第一音节文件。
9.根据权利要求1至8中任一项所述的方法,其特征在于,在所述将参考文本文件转换为第二音节文件之前,所述方法还包括:对所述参考文本文件进行分词;
所述将参考文本文件转换为第二音节文件,包括:
将所述参考文本文件的名词转换为所述第二音节文件。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述目标文本文件是由音频文件或视频文件的语音转码而生成的。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件,包括:
利用Python语言将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京精鸿软件科技有限公司,未经北京精鸿软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910169500.0/1.html,转载请声明来源钻瓜专利网。





