[发明专利]语音处理方法、装置、存储介质及计算机设备有效
申请号: | 202110397196.2 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113129866B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 黄选平 | 申请(专利权)人: | 重庆度小满优扬科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/26;G10L15/06 |
代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 |
地址: | 401121 重庆市渝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 存储 介质 计算机 设备 | ||
1.一种语音处理方法,其特征在于,所述方法包括:
获取语音数据集,所述语音数据集包含多个坐席与用户进行单次通话的语音数据;
将目标语音数据分割成多个语音片段,其中所述目标语音数据为所述语音数据集中当前被处理的语音数据;
对所述目标语音数据对应的所述多个语音片段进行语音识别以得到多个文本数据,其中每一语音片段对应一个文本数据;
从所述多个文本数据中筛选出有效通话文本数据;
根据所述有效通话文本数据进行主题词对的提取,以得到所述目标语音数据对应的主题词对,其中所述主题词对包括主题词以及与所述主题词具有依存关系的目标词,具体包括:对所述有效通话文本数据进行分词处理,以筛选出所述有效通话文本数据中属于非停用词的多个候选名词;从所述多个候选名词中确定出所述目标语音数据的主题词;对所述有效通话文本数据进行分句处理,以得到含有所述主题词的目标分句;对所述含有所述主题词的目标分句进行句式分类处理,以确定所述目标分句的句式类型;基于所述目标分句的句式类型对所述目标分句进行依存分析处理,以从所述目标分句中提取出与所述主题词具有依存关系的目标词;根据所述主题词和所述目标词,构建所述主题词对;
遍历处理所述语音数据集中的每一所述语音数据,并将所述语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类。
2.如权利要求1所述的语音处理方法,其特征在于,所述从所述多个候选名词中确定出所述目标语音数据的主题词,包括:
获取所述多个候选名词中每一候选名词的出现频率,以将所述多个候选名词中出现频率最高的候选名词确定为所述目标语音数据的主题词;或者
获取将所述多个候选名词中每一候选名词对应的用户提及次数,将所述多个候选名词中用户提到次数最多的候选名词,确定为所述目标语音数据的主题词。
3.如权利要求1所述的语音处理方法,其特征在于,所述根据所述主题词和所述目标词,构建所述主题词对,包括:
根据预设同义词表,对所述主题词和/或所述目标词进行同义词替换;
根据所述同义词替换后的主题词和目标词,构建所述主题词对。
4.如权利要求3所述的语音处理方法,其特征在于,所述对所述含有所述主题词的目标分句进行句式分类,以确定所述目标分句的句式类型,包括:
对所述含有所述主题词的目标分句进行疑问句和陈述句的句式分类,以确定所述目标分句的句式类型。
5.如权利要求1所述的语音处理方法,其特征在于,所述从所述多个文本数据中筛选出有效通话文本数据,包括:
识别出所述多个文本数据中的无效文本数据;
将所述多个文本数据中的无效文本数据删除,以从所述多个文本数据中筛选出有效通话文本数据。
6.如权利要求5所述的语音处理方法,其特征在于,所述识别出所述多个文本数据中的无效文本数据,包括:
当所述目标语音数据的通话时间小于预设时间时,或者所述目标语音数据对应的文本总长度小于预设文本长度时,或者所述目标语音数据的通话者身份仅为单方通话者时,将所述目标语音数据对应的所述多个文本数据中的所有文本数据识别为无效文本数据;或者
当所述目标语音数据的通话时间大于或等于预设时间,且所述目标语音数据的通话者身份不为单方通话者时,将所述多个文本数据中含有介绍词的首末句所属的文本数据识别为无效文本数据;或者
当所述目标语音数据对应的文本总长度大于或等于预设文本长度,且所述目标语音数据的通话者身份不为单方通话者时,将所述多个文本数据中含有介绍词的首末句所属的文本数据识别为无效文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆度小满优扬科技有限公司,未经重庆度小满优扬科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110397196.2/1.html,转载请声明来源钻瓜专利网。