[发明专利]文本挖掘方法、装置、终端及存储介质有效
| 申请号: | 201910742419.7 | 申请日: | 2019-08-09 |
| 公开(公告)号: | CN110442876B | 公开(公告)日: | 2023-09-05 |
| 发明(设计)人: | 张超;汤耀华 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/35;G10L15/26 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 许峰 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 挖掘 方法 装置 终端 存储 介质 | ||
1.一种文本挖掘方法,其特征在于,所述文本挖掘方法包括:
获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;
根据所述标准文本数据和预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;
根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;
若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本;
其中,对所述客服录音进行语音识别处理,以获得标准文本数据的步骤包括:
对所述客服录音进行语音识别处理得到文本数据;
查找并修正所述文本数据中的文本错误,以获得标准文本数据。
2.如权利要求1所述的文本挖掘方法,其特征在于,所述根据所述标准文本数据和预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径的步骤包括:
根据所述标准文本数据和预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;
确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。
3.如权利要求2所述的文本挖掘方法,其特征在于,所述根据所述标准文本数据和预设标准话术文本建立编辑距离矩阵的步骤包括:
获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;
获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;
根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。
4.如权利要求3所述的文本挖掘方法,其特征在于,所述根据所述最小编辑距离确定目标回溯路径的步骤包括:
获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;
根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。
5.如权利要求4所述的文本挖掘方法,其特征在于,所述若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本的步骤包括:
将所述文本变种片段保存在预设数据库中,并分别统计所述预设数据库中各文本变种片段的数量统计值;
若从所有数量统计值中检测到大于预设阈值的目标统计值,则获取所述目标统计值对应的目标变种片段,并获取所述质检要素文本的质检范式;
根据所述目标变种片段修改所述质检范式,以获得新的质检要素文本,并将新的质检要素文本同步到所述预设标准话术文本。
6.如权利要求5所述的文本挖掘方法,其特征在于,所述根据所述目标变种片段修改所述质检范式的步骤包括:
根据所述质检要素文本,确定所述目标变种片段的变种类型;
若所述变种类型为近似音类型,则根据所述目标变种片段生成近似音容错范式,并将所述近似音容错范式添加至所述质检范式;
若所述变种类型为方言音类型,则根据所述目标变种片段生成方言音容错范式,并将所述方言音容错范式添加至所述质检范式。
7.如权利要求1-6任一项所述的文本挖掘方法,其特征在于,所述对所述客服录音进行语音识别处理,以获得标准文本数据的步骤包括:
对所述客服录音进行语音标准化识别处理,以获得语音文本数据;
对所述语音文本数据进行文本分词处理,以获得第一文本数据;
对所述第一文本数据进行文本纠错处理,以获得第二文本数据;
对所述第二文本数据进行文本改写处理,以获得标准文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910742419.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本审核方法、装置及系统
- 下一篇:使用机器人规划作为平行语言语料库





