[发明专利]文本挖掘方法、装置、终端及存储介质有效
申请号: | 201910742419.7 | 申请日: | 2019-08-09 |
公开(公告)号: | CN110442876B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 张超;汤耀华 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/35;G10L15/26 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 许峰 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 挖掘 方法 装置 终端 存储 介质 | ||
本发明涉及金融科技领域,本发明公开了一种文本挖掘方法、装置、终端及存储介质,所述文本挖掘方法包括:获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。本发明解决客服录音文本挖掘精度低,文本挖掘效率低下的技术问题。
技术领域
本发明涉及金融科技技术领域,尤其涉及一种文本挖掘方法、装置、终端及存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融工业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
目前客服行业的质检考核过程通常是抽查审核客服录音,分为人工审核和机器审核两种。由于人工审核缺少客观性,无法全面客观地实现客服录音的质量评估,因此行业更多采用机器审核的方式,但是机器审核较为僵化,只能根据标准样板进行审核,无法深入挖掘客服录音中词句的文本应用,从而无法实现灵活审核,大大降低了质检工作质量和质检效率。
因此,如何实现高精度的文本挖掘,提高文本挖掘效率,是当前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种文本挖掘方法、装置、终端及存储介质,旨在解决客服录音文本挖掘精度低,文本挖掘效率低下的技术问题。
为实现上述目的,本发明实施例提供一种文本挖掘方法,所述文本挖掘方法包括:
获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;
根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;
根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;
若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。
可选地,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径的步骤包括:
根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;
确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。
可选地,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵的步骤包括:
获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;
获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;
根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。
可选地,所述根据所述最小编辑距离确定目标回溯路径的步骤包括:
获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;
根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。
可选地,所述若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910742419.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本审核方法、装置及系统
- 下一篇:使用机器人规划作为平行语言语料库