[发明专利]数据处理方法、装置、设备、介质及产品在审
| 申请号: | 202211621988.4 | 申请日: | 2022-12-16 |
| 公开(公告)号: | CN116032571A | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 余斐;陈萍 | 申请(专利权)人: | 中移信息技术有限公司;中国移动通信集团有限公司 |
| 主分类号: | H04L9/40 | 分类号: | H04L9/40 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 桂艳球 |
| 地址: | 518048 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 设备 介质 产品 | ||
2.根据权利要求1所述的方法,其特征在于,所述确定所述投诉信息文本对应的至少一个候选网站名,包括:
删除所述投诉信息文本对应的第一分词序列中不是网站名的第一分词,得到多个第一分词片段;
分别确定每个所述第一分词片段包括的多个目标分词在投诉信息图网络中对应的目标分词节点及不同所述目标分词节点之间的目标边;
在所述目标边满足预设条件的情况下,删除所述目标边连接的目标分词节点对应的目标分词,得到多个第二分词片段,所述预设条件为所述目标边被使用的第一频次不小于预设频次,或所述目标边的创建时刻不晚于预设时刻;
根据所述多个第二分词片段确定所述至少一个候选网站名。
3.根据权利要求2所述的方法,其特征在于,在所述删除所述投诉信息文本对应的第一分词序列中不是网站名的第一分词,得到多个第一分词片段之前,所述方法还包括:
将所述投诉信息文本输入至投诉信息文本分类模型,对所述投诉信息文本进行分类,输出得到所述投诉信息文本对应的投诉类别。
4.根据权利要求2所述的方法,其特征在于,所述删除所述投诉信息文本对应的第一分词序列中不是网站名的第一分词,得到多个第一分词片段,包括:
从所述第一分词序列中删除词性为目标词性或句法为目标句法的第一分词,得到多个第一分词片段,所述目标词性为非网站名对应的词性,所述目标句法为非网站名对应的句法。
5.根据权利要求4所述的方法,其特征在于,所述目标词性包括动词、介词、时间词、非语素词和代词,所述目标句法包括谓语和状语。
6.根据权利要求2所述的方法,其特征在于,在所述分别确定每个所述第一分词片段包括的多个目标分词在投诉信息图网络中对应的目标分词节点及不同所述目标分词节点之间的目标边之前,所述方法还包括:
对于所述第一分词序列中的每个第一分词,确定预设图网络中是否存在所述第一分词对应的第一分词节点;
在所述预设图网络中存在所述第一分词节点的情况下,将所述第一分词节点对应的第二频次加1;
在所述预设图网络中不存在所述第一分词节点的情况下,在所述预设图网络中创建所述第一分词对应的第一分词节点,并将所述第一分词节点对应的第二频次置为1;
对于所述第一分词序列中每两个相邻的第一分词,确定所述预设图网络中是否存在连接所述两个相邻的第一分词对应的分词节点的第一边;
在所述预设图网络中存在连接所述第一边的情况下,将所述第一边对应的第一频次加1;
在所述预设图网络中不存在所述第一边的情况下,在所述预设图网络中所述两个相邻的第一分词对应的分词节点之间创建所述第一边,并将所述第一边对应的第一频次置为1。
7.根据权利要求2所述的方法,其特征在于,所述根据所述多个第二分词片段确定所述至少一个候选网站名,包括:
通过滑动窗口对所述多个第二分词片段进行处理,得到所述投诉信息文本对应的所述至少一个候选网站名。
8.根据权利要求1所述的方法,其特征在于,所述判断所述至少一个候选网站名中的每个所述候选网站名是否为非法网站名,包括:
分别将每个所述候选网站名输入至网站名判别模型,确定每个所述候选网站名是网站名的概率,输出得到每个所述候选网站名对应的目标概率,所述目标概率用于表征所述候选网站名是网站名的概率;
确定第一概率对应的目标候选网站名为非法网站名,所述第一概率为所述至少一个候选网站名对应的目标概率中最高且高于预设概率的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移信息技术有限公司;中国移动通信集团有限公司,未经中移信息技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211621988.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种易搅拌发酵反应池
- 下一篇:一种光伏发电并网系统孤岛检测方法





