[发明专利]一种半监督学习的大数据关键词词典构建方法有效
申请号: | 202211177760.0 | 申请日: | 2022-09-27 |
公开(公告)号: | CN115270774B | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 杨伊态;段春先;尹胜;陈胜鹏;谢迪;王敬佩;李颖 | 申请(专利权)人: | 吉奥时空信息技术股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/194;G06F40/151;G06F40/289;G06N3/04 |
代理公司: | 武汉泰山北斗专利代理事务所(特殊普通合伙) 42250 | 代理人: | 董佳佳 |
地址: | 430223 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 学习 数据 关键词 词典 构建 方法 | ||
1.一种半监督学习的大数据关键词词典构建方法,其特征在于,所述方法包括下述步骤:
步骤S1、构建种子词词典;
步骤S2、获取候选关键词集合:根据种子词词典中的种子词,通过分词工具对文本语料进行分词,得到切分语料,使用word2vec模型将切分语料中的每个词转换为词向量,针对种子词词典中的每个种子词,筛选出词向量相似度最高的若干个相近词,并从中提取出候选关键词,得到候选关键词集合;
步骤S3、获取关键词词典:基于候选关键词集合,搜索并提取候选关键词片段并从中筛选出关键词,得到关键词词典;
步骤S4、扩充关键词词典:使用关键词词典,训练基于Bert模型、BiLSTM网络、CRF网络的关键词提取模型,再使用关键词提取模型从文本语料中提取关键词片段,并从中筛选出关键词,添加到关键词词典中得到扩充的关键词词典;
其中所述步骤S2的具体过程如下:
S21、将种子词词典中的种子词添加到分词工具的自定义词典中,通过分词工具对文本语料进行分词,得到切分后的切分语料;
S22、将切分语料输入至Word2Vec模型中得到切分语料中每个词的词向量,形成语料词向量集;
S23、对于种子词词典中的每个种子词,计算种子词与语料词向量集中词向量的相似度,筛选出相似度最高的k1个词作为相近词;
S24、使用候选关键词算法,获得候选关键词集合;
其中步骤S24具体过程如下:
241、将所有种子词构成初始化的候选关键词集合;
242、将所有种子词的相近词成候选相近词集合;
243、遍历候选相近词集合,针对其中的每个词,通过Word2Vec模型得到相应的词向量,并计算与语料词向量集中词向量的相似度,得到相似度最高的k2个词作为相近词;
244、计算词支持度,所述支持度为词的k2个相近词在候选关键词集合的个数,当支持度大于或等于设定阈值时,将词添加到候选关键词集合,并从候选相近词集合删除词;
245、重复步骤243、244,直至候选关键词集合不再新增时停止计算。
2.如权利要求1所述半监督学习的大数据关键词词典构建方法,其特征在于,所述步骤S3具体过程如下:
S31、从切分语料中搜索候选关键词集合中的候选关键词;
S32、对于切分语料中每个候选关键词的文本片段,保留文本片段的前k3个和后k3个分词文本,作为候选关键词的候选关键词片段;
S33、统计候选关键词的每个候选关键词片段的频次,保留频次最高的k4个候选关键词片段作为当前候选关键词的关键词片段集合;
S34、对于关键词片段集合中的每一个关键词片段,筛选出关键词;
S35、将候选关键词集合中所有候选关键词对应筛选出的关键词进行组合,构建关键词词典。
3.如权利要求2所述半监督学习的大数据关键词词典构建方法,其特征在于,所述步骤S4具体过程如下:
S41、对于文本语料中的语料片段,如果语料片段中含有关键词词典中的关键词,则将此语料片段作为训练文本,含有的关键词作为关键词标签,如果没有关键词词典中的关键词,则将语料片段作为预测文本;
S42、将每个训练文本和对应的关键词标签作为一个训练样本,得到训练样本集,将所有预测文本作为预测语料集;
S43、使用训练样本集训练关键词提取模型,然后使用训练好的关键词提取模型在预测语料集中进一步提取关键词,其中所述关键词提取模型由Bert模型、BiLSTM网络和CRF网络组成;
S44、将提取的关键词经筛选,将正确的关键词加入关键词词典;
S45、对关键词词典中的关键词做去重处理,得到最终的关键词词典。
4.如权利要求3所述半监督学习的大数据关键词词典构建方法,其特征在于,步骤S43中,使用训练样本集训练关键词提取模型的具体过程如下:
431、将每个训练样本转换成标准样本,标准样本的格式为[语料片段,语料标记序列];
432、使用Bert模型将语料片段转换成对应的词向量;
433、将词向量输入至BiLSTM网络得到出语料片段发射概率矩阵;
434、将语料片段发射矩阵输入CRF网络,基于发射矩阵和转移矩阵,计算得到正确标记序列分数和所有可能的标记序列的总分数;
435、根据正确标记序列分数和所有可能的标记序列的总分数,计算损失分数;
436、根据损失分数,使用梯度下降法修改更新模型参数,选择验证正确率最高的一个参数版本作为最终训练好的关键词提取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉奥时空信息技术股份有限公司,未经吉奥时空信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211177760.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置