[发明专利]基于银行客服场景下的文本标注方法、装置和存储介质在审
申请号: | 202310404470.3 | 申请日: | 2023-04-17 |
公开(公告)号: | CN116431809A | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 邬默;昝云飞;徐红;高翔;纪达麒;陈运文 | 申请(专利权)人: | 达而观科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06Q40/02 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 王婷 |
地址: | 100088 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 银行 客服 场景 文本 标注 方法 装置 存储 介质 | ||
1.一种基于银行客服场景下的文本标注方法,其特征在于,包括:
获取银行客服场景对话文本,其中,所述对话文本中包括对话语句;
对所述对话文本中的对话语句进行向量转换获取对应的对话语句向量,并对所述对话语句向量进行密度聚类获取语句向量簇;
根据所述语句向量簇获取待标定语句簇,并根据所述待标定语句簇的语义对所述待标定语句簇进行标签标注。
2.根据权利要求1所述的方法,其特征在于,所述获取银行客服场景对话文本,包括:
获取银行客户场景下的指定类型的对话数据,其中,所述指定类型包括贷前营销类、贷中审核类、贷后催款类或满意度调查类;
对所述对话数据进行预处理,并对预处理后的所述对话数据按照客户和客服的身份进行拆分获取客户文本和客服文本,其中,所述客户文本中包括客户对话语句,所述客服文本中包括客服对话语句;
将所述客户文本或所述客服文本作为所述银行客服场景对话文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述对话文本中的对话语句进行向量转换获取对应的对话语句向量,包括:
获取预训练语言模型,其中,所述预训练语言模型包括Bert模型;
采用所述预训练语言模型对所述对话语句进行向量转换获取对应的对话语句向量。
4.根据权利要求1所述的方法,其特征在于,所述对所述对话语句向量进行密度聚类获取语句向量簇,包括:
对所述对话语句向量进行数据切分获取多个对话语句向量集合,其中,各对话语句集合中包含数量相同的对话语句向量;
采用密度聚类算法按照第一簇参数对各所述对话语句向量集合进行聚类获取多个语句向量簇,其中,每个语句向量簇中包含向量距离在指定范围内的对话语句向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述语句向量簇获取待标定语句簇,包括:
将各语句向量簇中的对话语句向量转换为对话语句获取语句簇;
根据各语义簇的语义状态获取第一语句簇集合和第二语句簇集合,其中,所述第一语句簇集合中包含语义明确的语句簇,所述第二语句簇集合中包含语义不明确的语句簇;
根据所述第一语句簇集合和所述第二语句簇集合获取所述待标定语句簇。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一语句簇集合和所述第二语句簇集合获取所述待标定语句簇,包括:
将所述第二语句簇集合中的各对话语句进行向量转换获取对应的对话语句向量;
采用密度算法按照指定簇参数对所述第二语句簇集合所转换的对话语句向量进行迭代聚类获取新增语句向量簇;
将各新增语句向量簇中的对话语句向量转换为对话语句获取第三语句簇集合,其中,所述第三语句簇集合中包含语义明确的语句簇;
将所述第一语句簇集合和所述第三语句簇集合中所包含的语句簇作为所述待标定语句簇。
7.根据权利要求6所述的方法,其特征在于,所述指定簇参数大于所述第一簇参数。
8.根据权利要求1所述的方法,其特征在于,所述根据所述待标定语义簇的语义对所述待标定语句簇进行标签标注,包括:
将所述待标定语句簇进行展示,以接收用户所确定的对所述待标定语句簇的语义;
根据所述语义确定标签,并将所述标签标注到所述待标定语句簇中。
9.根据权利要求1所述的方法,其特征在于,所述根据所述语义对所述待标定语句簇进行标签标注之后,还包括:
将标注的标签与历史标签进行对比以获取新增标签;
根据所述新增标签确定针对所述银行客服场景对话文本的新增事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观科技(北京)有限公司,未经达而观科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310404470.3/1.html,转载请声明来源钻瓜专利网。