[发明专利]基于BERT模型的文档关键词抽取方法及装置有效

专利信息
申请号: 202110142917.5 申请日: 2021-02-02
公开(公告)号: CN112883171B 公开(公告)日: 2023-02-03
发明(设计)人: 程学旗;郭嘉丰;范意兴;张儒清;赵恒;马新宇 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F16/953;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国
地址: 100080 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 bert 模型 文档 关键词 抽取 方法 装置
【说明书】:

一种基于BERT模型的文档关键词抽取方法,其包括以下步骤:将文档集合中的每篇文档通过BERT模型进行编码,并提取BERT模型生成的文档语义对每个子词的注意力权重;将子词还原成词语,并将子词的注意力权重聚合为词语的注意力权重;将文档中不同位置的同一词语的注意力权重聚合为词语的与位置无关的注意力权重,记为p(word_weight|doc);计算每个词语在文档集合上的注意力权重,记为p(word_weight|corpus);以及联合p(word_weight|doc)和p(word_weight|corpus),并选取N个最终注意力权重最高的词语作为文档关键词。该方法利用BERT模型提取文档语义表示来计算词语注意力权重分布,最终实现关键词的抽取,兼顾词语频率信息的同时,有效地解决传统无监督算法忽略语义问题,提高了关键词抽取的准确率和召回率。

技术领域

发明涉及信息处理技术领域,特别涉及一种基于BERT模型的文档关键词抽取方法及装置。

背景技术

随着互联网技术蓬勃发展和网络信息的急剧增长,利用文档关键词抽取技术可以标引文档内容特征、构建信息检索、快速提取文档中心内容,提升读者检阅查阅效率,应对信息过载问题。

关键词是能够表达文档核心内容的词语,包括单词、术语和短语,包含一定信息量,对文本内容的理解有促进作用。从技术角度出发,文档关键词抽取是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作;从用户角度出发,关键词抽取允许用户快速窥探文章整体思想,判断是否存在所需信息,提升信息查找效率。

现有针对关键词自动抽取方法主要有以下四种方式:

(1)以词频-逆文档频率(Term Frequency–Inverse Document Frequency,简写为TF-IDF)为代表的基于统计方法:定义词频(Term Frequency,简写为TF)为某单词在文档中出现的次数,文档频率(Document Frequency,简写为DF)为文档集合中包含该单词的文档数量,逆文档频率(Inverse Document Frequency,简写为IDF)为计算TF-IDF=TF×IDF 作为单词重要性得分,选取N个TF-IDF得分最高的单词作为关键词。

(2)以文档排名(TextRank)为代表的基于词图模型方法:将文档分词,以词语为节点,利用共现关系构造任两词语节点之间的边,具体来说,当且仅当两词语节点对应词汇在长度为K的窗口中共同出现时,才会在这两词语节点之间构建连边。依照上述方法构建出文档的有向图表达,然后基于随机游走思想多次迭代,传播更新节点的权重直到图中每个节点权重收敛稳定。最后,将按节点权重倒排所有词语节点,选取K个权重最高的词语作为文档关键词。

(3)以隐狄利克雷分布(latent dirichlet allocation,简写为LDA) 为代表的基于传统机器学习的主题模型方法:假设每篇文章的每个词都是以一定概率p(topic|doc)选择了某个主题,并从这个主题中以一定概率 p(word|topic)选择某个词语这样一个过程得到,而p(topic|doc)和 p(word|topic)分别可由分布δ(d)和γ(t)计算得到,基于这些假设对文档生成过程进行建模,模型主要需要学习的参数为狄利克雷分布δ(d)和γ(t),在语料库上对模型进行训练学习直到参数收敛。使用时,将文档经过隐狄利克雷分布模型之后,得到该文档隐含的主题集合(通常文档会有多个主题,概率小的主题将被舍弃);将主题集合中每个主题包含的单词赋给文档作为候选关键词得到候选关键词集合,对每个候选关键词计算每个主题的概率乘以该单词属于该主题的概率之和作为其得分,选取得分最高的N个候选关键词作为最终关键词。

(4)以各种神经网络为代表的基于有监督深度学习的方法:这类方法可以分为两个阶段:第一阶段,构建合适的网络模型用于提取文档中单词或字的向量化表示,这就需要使用标记数据对网络模型进行训练或是微调;第二阶段是基于向量通过各种方法计算每个词或字的权重,选取权重最高N个的作为关键词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110142917.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top