[发明专利]基于关联分析算法挖掘领域词汇的方法、装置及存储介质在审
申请号: | 202210673281.1 | 申请日: | 2022-06-14 |
公开(公告)号: | CN115859948A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 王军华;蒋宁;李宽 | 申请(专利权)人: | 北京中关村科金技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/2458;G06N5/025 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 秦贺余;刘冀 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关联 分析 算法 挖掘 领域 词汇 方法 装置 存储 介质 | ||
本申请公开了一种基于关联分析算法挖掘领域词汇的方法、装置及存储介质,其中该方法,包括:获取问题以及与问题关联的段落;将问题和段落输入预训练好的深度学习模型,输出文本向量;将文本向量输入第一卷积神经网络,预测问题的答案在段落中的首位置;将文本向量输入第二卷积神经网络,预测答案在段落中的尾位置;基于预测的首位置和尾位置,从段落中确定问题的答案。
技术领域
本申请涉及信息挖掘技术领域,特别是涉及一种基于关联分析算法挖掘领域词汇的方法、装置及存储介质。
背景技术
领域词汇是指出现在语料中但未被收录在通用词典中且具有较强的领域区分度,领域词汇的出现往往带有时间、空间、地域等特性。随着互联网和科学研究的发展使得网络词汇和特定领域的专业词汇出现的速度远远超过了领域学者的认知速度。一般情况下,特定领域的专业词汇多常出现在相应领域中,往往具有专业性和特殊性,同时,随着时间和空间的变化,领域词汇往往具有速度快和消亡快的特性。
目前,大多数使用基于统计的领域词汇挖掘算法或者基于开源工具SmoothNLP的领域词汇挖掘算法来进行领域词汇的挖掘。但是,基于统计的领域词汇挖掘算法的精准率、召回率都不高,并且需要进一步进行大量的人工过滤规则制定,费时费力,且不能保证最终的领域词汇质量。基于开源工具SmoothNLP的领域词汇挖掘算法的精准率、召回率也不高,面对具体落地场景中需要针对性的添加人工规则提升效果时,不方便灵活使用。
针对上述的现有技术中存在的领域词汇挖掘的精准率低、召回率低、无法灵活使用的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明的实施例提供了一种基于关联分析算法挖掘领域词汇的方法、装置及存储介质,以至少解决现有技术中存在的领域词汇挖掘的精准率低、召回率低、无法灵活使用的技术问题。
根据本发明实施例的一个方面,提供了一种基于关联分析算法挖掘领域词汇的方法,包括:获取待提取领域词汇的领域文本语料;对所述领域文本语料进行切词处理,计算经切词处理得到的各个单词的凝聚度和自由度,并根据所述凝聚度和所述自由度,从经切词处理得到的各个单词中确定候选单词集合;利用开源分词工具对所述领域文本语料进行分词处理,计算经分词处理得到的各个单词的TF-IDF权重值,并根据所述TF-IDF权重值,从经分词处理得到的各个单词中确定种子词汇集合;分别计算所述候选单词集合中的各个候选单词与所述种子词汇集合中的各个种子词汇之间的关联值,从所述候选单词集合中筛选出关联值大于预设阈值的候选单词作为领域词汇。
可选地,获取待提取领域词汇的领域文本语料,包括:从数据库获取领域内的文本语料;对所述领域内的文本语料进行预处理,得到待提取领域词汇的领域文本语料。
可选地,对所述领域内的文本语料进行预处理,包括:将所述领域内的文本语料进行断句处理,并记录每个句子所属的文档名称。
可选地,对所述领域文本语料进行切词处理,包括:确定切词长度区间;通过具有所述切词长度区间的切词算法,将所述领域文本语料中的左右句子进行切词处理。
可选地,计算经切词处理得到的各个单词的凝聚度和自由度,并根据所述凝聚度和所述自由度,从经切词处理得到的各个单词中确定候选单词集合,包括:根据预设的凝聚度计算公式,计算经切词处理得到的各个单词的凝聚度;根据预设的自由度计算公式,计算经切词处理得到的各个单词的自由度;从经切词处理得到的各个单词中确定所述凝聚度大于预设的凝聚度阈值的第一候选单词,从经切词处理得到的各个单词中确定所述自由度大于预设的自由度阈值的第二候选单词;取所述第一候选单词和所述第二候选单词的交集,得到所述候选单词集合。
可选地,根据所述TF-IDF权重值,从经分词处理得到的各个单词中确定种子词汇集合,包括:根据所述TF-IDF权重值,对经分词处理得到的各个单词进行降序处理;从降序处理后的各个单词中提取预定数量的单词作为种子词汇,得到所述种子词汇集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中关村科金技术有限公司,未经北京中关村科金技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210673281.1/2.html,转载请声明来源钻瓜专利网。