[发明专利]文本处理方法和装置、以及电子设备和可读存储介质有效
申请号: | 201910639511.0 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110347800B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 李嘉淳;张培 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06K9/62;G06F40/205 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕朝蕙 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 以及 电子设备 可读 存储 介质 | ||
1.一种文本处理方法,包括:
获取待处理文本;
确定所述待处理文本的文本长度,以及所述待处理文本中包括的属于多个预定类型词库中每个预定类型词库的词汇量;
根据所述文本长度及所述词汇量,利用预测模型得到所述待处理文本的预测价值度;
根据多个待处理文本的预测价值度,确定所述多个待处理文本的预测价值度的数值分布;
根据所述数值分布,确定预测价值度阈值;以及
展示预测价值度大于等于所述预测价值度阈值的待处理文本,
其中,所述根据所述数值分布,确定预测价值度阈值包括:
确定所述预测价值度大于等于多个预定值中每个预定值的待处理文本占所述多个待处理文本的比例;以及
将所述多个预定值中确定的比例最接近预定比例的预定值作为所述预测价值度阈值。
2.根据权利要求1所述的方法,还包括获取所述预测模型;
其中,所述获取所述预测模型包括循环执行以下第一循环操作,直至多个第二已处理文本的相关值大于等于预定相关值:
获取与多个第一已处理文本一一对应的多个第一样本数据;
根据所述多个第一样本数据及原始预测模型,调整所述原始预测模型以得到待优化预测模型;以及
利用所述待优化预测模型处理与所述多个第二已处理文本对应的多个第二样本数据,得到针对所述多个第二已处理文本中每个第二已处理文本的预测价值度,
其中,在针对所述多个第二已处理文本的相关值大于等于所述预定相关值的情况下,确定所述待优化预测模型为所述预测模型;其中,每个第二已处理文本的相关值包括每个第二已处理文本的预测价值度与所述每个第二已处理文本的实际价值度的相关值。
3.根据权利要求2所述的方法,其中,调整所述原始预测模型以得到待优化预测模型包括:
利用所述原始预测模型得到所述每个第一已处理文本的第一初始预测价值度;以及
以所述原始预测模型作为初始预测模型,循环执行以下第二循环操作,直至所述第一初始预测价值度与第二初始预测价值度的差值小于等于预定差值:
采用预定策略调整所述初始预测模型,得到调整后初始预测模型;
利用所述调整后初始预测模型得到所述每个第一已处理文本的第二初始预测价值度;以及
在所述第一初始预测价值度与所述第二初始预测价值度的差值大于预定差值的情况下,更改所述预定策略,并以所述调整后初始预测模型作为初始预测模型,以所述第二初始预测价值度作为所述第一初始预测价值度,返回重新调整所述初始预测模型,
其中,在所述第一初始预测价值度与所述第二初始预测价值度的差值小于等于预定差值的情况下,确定所述初始预测模型为所述待优化预测模型。
4.根据权利要求2所述的方法,其中:
在获取所述多个第一样本数据之前,所述第一循环操作还包括:根据预定抽样比,从已处理文本库中获取所述多个第一已处理文本;
在得到针对所述多个第二已处理文本中每个第二已处理文本的预测价值度之前,所述第一循环操作还包括:从已处理文本库中获取所述多个第二已处理文本,以及获取所述多个第二已处理文本中每个第二已处理文本的实际价值度,
所述第一循环操作还包括:
调整所述预定抽样比;和/或
增加所述多个预定类型词库中至少一个预定类型词库的词汇量。
5.根据权利要求4所述的方法,其中,获取所述每个第二已处理文本的实际价值度包括:
获取所述每个第二已处理文本的内容详细度和功能定位准确度;以及
根据所述内容详细度和所述功能定位准确度,确定所述每个第二已处理文本的实际价值度。
6.根据权利要求2所述的方法,其中,所述相关值包括Pearson相关值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910639511.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语言模型训练方法、装置和计算机设备
- 下一篇:一种商品分类编码匹配方法及系统