[发明专利]一种主题词的提取方法、装置、设备及存储介质有效
申请号: | 201911349731.6 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111126060B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 郎鹏飞;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主题词 提取 方法 装置 设备 存储 介质 | ||
本申请公开了一种主题词的提取方法、装置、设备及存储介质,包括:确定包括多个分词的候选词集合;根据候选词总数,以及目标候选词在目标文本的不同位置处分别对应的权重值,计算出词频,该权重值基于影响因子进行确定,影响因子包括目标候选词在该目标文本中的位置,和/或,目标候选词与关键词之间的位置关系;根据目标候选词在所有文本中对应的权重值总和以及该文本库中所有候选词对应的权重总和,计算出该目标候选词的逆文本频率;根据目标候选词的词频与逆文本频率的乘积,从候选词集合中确定出主题词。由此可见,基于候选词在目标文本中所具有的其它特征来对该候选词的重要程度进行考量,可以提高提取主题词的准确性。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种主题词的提取方法、装置、设备及存储介质。
背景技术
主题词,通常能够高度概括文本的中心思想。比如,对于一篇介绍“月季”(花)的文章,其通篇内容通常围绕“月季”进行描述,则,该篇文章的主题词可以为“月季”。实际应用中,为文本提取出主题词,在文本检索、文本分类等诸多领域中存在广泛应用。
目前,通常是采用词频-逆文本频率(Term Frequency–Inverse DocumentFrequency,TF-IDF)算法来提取文本的主题词,但是这种提取文本主题词的方式,通常存在准确性较低的问题。
发明内容
为了解决上述问题,本申请实施例提供了一种主题词的提取方法、装置、设备及存储介质,以提高所提取的文本主题词的准确性。
第一方面,本申请实施例提供了一种主题词的提取方法,所述方法包括:
确定目标文本的候选词集合,所述候选词集合中包括所述目标文本的多个分词;
根据所述候选词集合所包括的候选词总数以及目标候选词在所述目标文本的不同位置处分别对应的权重值,计算出所述目标候选词的词频,每个位置处的目标候选词所对应的权重值基于所述目标候选词的影响因子进行确定,所述影响因子包括所述目标候选词在所述目标文本中的位置,和/或,所述目标候选词与所述目标候选词对应的关键词之间的位置关系,所述目标候选词对应的关键词在所述目标文本包括的关键词中距离所述目标候选词最近,所述目标候选词为所述候选词集合中的任意一个候选词;
根据所述目标候选词在文本库的所有文本中对应的权重值总和以及所述文本库中所有候选词对应的权重总和,计算出所述目标候选词的逆文本频率;
根据所述目标候选词的词频与逆文本频率的乘积,从所述候选词集合中确定出所述目标文本的主题词。
在一种可能的实施方式中,所述目标候选词在所述目标文本中的位置,包括段首、段中、段尾、文章首段、文章尾段以及文章中间段中的任意一种或多种。
在一种可能的实施方式中,所述目标候选词与所述目标候选词对应的关键词之间的位置关系,包括所述目标候选词与所述目标候选词对应的关键词是否位于同一段落、所述目标候选词与所述目标候选词对应的关键词是否位于同一语句、所述目标候选词与所述目标候选词对应的关键词之间的距离。
在一种可能的实施方式中,所述方法还包括:
获取影响因子对应的权重值的多个取值以及每个取值所对应的主题词提取精度;
根据所述多个取值以及每个取值对应的主题词提取精度构建线性函数;
确定所述线性函数中使得主题词提取精度为极大值时所对应的极值点,并将所述极值点作为所述影响因子对应的权重值的目标值。
在一种可能的实施方式中,所述方法还包括:
对所述目标文本进行分词,得到所述目标文本的初始分词结果;
对所述初始分词结果所包含的各个词进行词性标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911349731.6/2.html,转载请声明来源钻瓜专利网。