[发明专利]一种文本同事件识别方法、装置及可读存储介质有效
| 申请号: | 202210665266.2 | 申请日: | 2022-06-14 |
| 公开(公告)号: | CN114970525B | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 毛云青;葛俊;王国梁;曹喆;陈刚 | 申请(专利权)人: | 城云科技(中国)有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/268;G06F18/22;G06N3/08 |
| 代理公司: | 杭州汇和信专利代理有限公司 33475 | 代理人: | 董超 |
| 地址: | 310052 浙江省杭州市滨江区长*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 事件 识别 方法 装置 可读 存储 介质 | ||
1.一种文本同事件识别方法,其特征在于,包括以下步骤:
获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,将所述待识别文本数据依据词性进行分词,采用分词后的子词来重新构建新的待识别文本数据,统计所述新的待识别文本数据中的子词的词频,基于每个子词归属的待识别文本数据的文本编号以及所述子词在所述待识别文本数据中的位置构建词汇索引字典;统计每个子词所在的待识别文本数据中的文本数据量,构建词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
获取针对每一筛选词的所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
2.根据权利要求1所述的文本同事件识别方法,其特征在于,将所述预选同事件文本数据集输入经训练得到的第二句子模型中得到每个待识别文本数据的文本特征向量,所述第二句子模型的训练方式为:获取文本训练样本,对所述文本训练样本进行数据增强后通过对比学习的方式对所述第二句子模型进行训练,所述数据增强的方式为:利用所述文本训练样本获得生成文本,对所述生成文本随机复制句子中几个位置的词汇生成新的文本数据,用所述新的文本数据作为所述文本训练样本的扩充数据进行数据增强,所述第二句子模型以roberta预训练模型为基础,对所述预选同事件文本数据集中的预选同事件文本提取关键词,并通过词汇索引字典记录所述关键词的位置信息,在所述roberta预训练模型自带的自注意计算机制中添加关键词掩码矩阵,所述关键词掩码矩阵中关键词的位置信息参数设置为1,其余位置信息参数设置为0,通过添加了所述关键词掩码矩阵的自注意计算机制计算得出所述预选同事件文本的词汇权值,通过所述词汇权值判断至少两所述预选同事件文本的文本相似度,计算每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分,选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据。
3.根据权利要求2所述的文本同事件识别方法,其特征在于,在“选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据”步骤中,基于每个待识别文本数据的所述相似度得分构建文本相似度矩阵,其中所述文本相似度矩阵的每一列表示每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分,选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据,记录所述同事件文本数据的文本编号得到预选同事件表,根据所述预选同事件表得到同事件文本。
4.根据权利要求1所述的文本同事件识别方法,其特征在于,在“选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词”步骤中,所述筛选条件为词频在设定下值和设定上值之间,其中所述设定下值为历史统计数据中的同事件文本集的文本数目的最小值;所述设定上值为抽样的待识别文本数据集中同事件文本集的文本数目的均值。
5.根据权利要求1所述的文本同事件识别方法,其特征在于,在“从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集”步骤中,根据所述筛选词从所述词汇索引字典中选出含有所述筛选词的至少一待识别文本数据,整合所述待识别文本数据为第一相似文本数据集,每一所述筛选词对应一第一相似文本数据集。
6.根据权利要求1所述的文本同事件识别方法,其特征在于,在“获取针对每一筛选词的所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量”步骤中,利用所述词汇索引字典获取所述第一相似文本数据集中所述每个筛选词的位置,将所述第一相似文本数据集输入到所述第一句子模型中,以每个所述筛选词的位置索引获取词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于城云科技(中国)有限公司,未经城云科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210665266.2/1.html,转载请声明来源钻瓜专利网。





