[发明专利]一种关键词提取方法、计算设备及可读存储介质有效
| 申请号: | 202010941205.5 | 申请日: | 2020-09-09 |
| 公开(公告)号: | CN111985217B | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 李拓航;迟令;李宏图;孙成宇;李帅;胡亮 | 申请(专利权)人: | 吉林大学 |
| 主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/30;G06N3/04 |
| 代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 孟玉洁;赵爱军 |
| 地址: | 130012 吉*** | 国省代码: | 吉林;22 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 关键词 提取 方法 计算 设备 可读 存储 介质 | ||
本发明公开了一种关键词提取方法,在计算设备中执行,包括以下步骤:获取待提取关键词的文本,该文本中包括多个候选词;对于每一个候选词:分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率;根据该候选词在文本中的位置来确定该候选词的位置特征值:确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性;根据覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值;将综合特征值最大的预设数量个候选词作为文本的关键词。本发明一并公开了相应的计算设备。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于三种特征的英文关键词智能提取方法及计算设备。
背景技术
近十年来,在线学术资源的数量迅速增长,例如,顶级数据提供商谷歌学术(Google Scholar)在2019年收录了数千万篇论文。云数据的广泛应用和在线学术信息的激增提升了个人对学术资料的访问便捷性,同时也为学术工作者带来了从海量信息中正确选择出所需要的信息的挑战。
为了便于进行信息检索,数据提供者试图在文档搜索上应用智能处理方法。关键词是文档的概括性描述,被认为是高效的搜索标签。准确的关键词能够提高文档搜索任务的效率,大大减少用户搜索所需文档以及阅读文档内容的时间。但是,并非所有文档都带有准确的关键词,关键词的缺失和错误容易造成文档的漏检和错检,使得文档搜索的效率和准确性大打折扣。因此,需要一种文档关键词的智能提取方法。
发明内容
为此,本发明提供一种关键词提取方法及计算设备,以力图解决或至少缓解上面存在的问题。
根据本发明的第一个方面,提供一种关键词提取方法,在计算设备中执行,包括:获取待提取关键词的文本,该文本包括多个候选词;对于每一个候选词:分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率;根据该候选词在文本中的位置来确定该候选词的位置特征值:确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性;根据覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值;将综合特征值最大的预设数量个候选词作为上述文本的关键词。
可选地,在根据本发明的关键词提取方法中,文本为英文文本,该方法还包括:删除文本中的停用词,将文本中剩余的词作为候选词。
可选地,在根据本发明的关键词提取方法中,候选词之间的相似度按照以下步骤确定:采用词向量模型来确定候选词的词向量;将两个候选词的词向量的余弦相似度作为这两个候选词的相似度。
可选地,在根据本发明的关键词提取方法中,词向量模型包括依次相连的输入层、隐藏层和输出层,上述采用词向量模型来确定候选词的词向量的步骤包括:将文本中的候选词与其上下文词所组成的词对作为训练样本,训练词向量模型,以得到隐藏层的权重矩阵,权重矩阵的行的数量为文本包括的候选词的数量,列的数量为预设的词向量维数;将权重矩阵中的每一个行向量作为相应候选词的词向量。
可选地,在根据本发明的关键词提取方法中,候选词的位置特征值为候选词在文本中出现的各个位置顺序的倒数之和。
可选地,在根据本发明的关键词提取方法中,候选词的主题概率分布按照以下步骤确定:将文本输入预设的主题分类模型,以便主题分类模型输出该文本所属的主题集合,以及各候选词属于主题集合中的每个主题的概率;候选词属于主题集合中的每个主题的概率组成该候选词的主题概率分布。
可选地,在根据本发明的关键词提取方法中,候选词的综合特征值按照以下步骤确定:分别将候选词的覆盖率、位置特征值、语义多样性进行归一化;根据归一化后的覆盖率和语义多样性来确定候选词的语义特征值;根据语义特征值和归一化后的位置特征值来确定候选词的综合特征值。
可选地,在根据本发明的关键词提取方法中,候选词的语义特征值按照以下公式计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010941205.5/2.html,转载请声明来源钻瓜专利网。





