[发明专利]中文学术关键词抽取方法、装置和存储介质有效
| 申请号: | 202110814460.8 | 申请日: | 2021-07-19 |
| 公开(公告)号: | CN113268995B | 公开(公告)日: | 2021-11-19 |
| 发明(设计)人: | 杜军平;王岳;薛哲;徐欣 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/33;G06N3/04 |
| 代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 宋教花 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中文 学术 关键词 抽取 方法 装置 存储 介质 | ||
1.一种中文学术关键词抽取方法,其特征在于,该方法包括以下步骤:
从学术文本数据集中获得学术语料,输入至包含外部语义信息的预训练的RoBerta模型,生成所述学术语料的动态字向量;
将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序,基于排序获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集;
基于候选关键词集中候选关键词的标题相关相似度特性和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词,该步骤包括:
基于各候选关键词和学术文本标题的最长公共子串长度确定标题匹配长度,在标题匹配长度不为0的情况下基于标题匹配长度与候选关键词长度之比计算当前候选关键词的标题相似度,在候选关键词的长度小于预定阈值的情况下,标题相似度设为0;
对于标题匹配长度为0,长度大于预定阈值的候选关键词,基于其与标题相关词的共现关系计算关联标题相似度;
基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征;
计算候选关键词的TFIDF特征;
基于所述标题相关相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
2.根据权利要求1所述的方法,其特征在于,
所述将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序包括:
将动态字向量的序列输入至BiLSTM模型,获得各字向量对应的标签概率分布,并生成向量输入序列对应的标签序列;
将所述标签序列输入至条件随机场CRF模型,获得标签序列的排序,并基于标签序列的排序获得最优标签序列。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于候选关键词位置信息构造词位置特性;
所述基于所述标题相关相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词,包括:
利用所述词位置特性作为候选关键词的权重过滤掉部分候选关键词;以及
对于未过滤掉的候选关键词,基于所述标题相关相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
4.根据权利要求3所述的方法,其特征在于,
基于如下公式计算关联标题相似度:
其中,
所述基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征包括:在当前关键词与标题的匹配长度不为0,且候选关键词长度大于或等于预定值的情况下,以当前候选关键词的标题相似度作为当前候选关键词的标题相关相似度特征;在当前关键词与标题的匹配长度不为0,且候选关键词长度小于预定值的情况下,以当前候选关键词的关联标题相似度作为当前候选关键词的标题相关相似度特征;在其他情况下,当前候选关键词的标题相关相似度特征为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110814460.8/1.html,转载请声明来源钻瓜专利网。





