[发明专利]一种主题词的提取方法、装置、设备及存储介质有效
申请号: | 201911349731.6 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111126060B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 郎鹏飞;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主题词 提取 方法 装置 设备 存储 介质 | ||
1.一种主题词的提取方法,其特征在于,所述方法包括:
确定目标文本的候选词集合,所述候选词集合中包括所述目标文本的多个分词;
根据所述候选词集合所包括的候选词总数以及目标候选词在所述目标文本的不同位置处分别对应的权重值,计算出所述目标候选词的词频,每个位置处的目标候选词所对应的权重值基于所述目标候选词的影响因子进行确定,所述影响因子包括所述目标候选词在所述目标文本中的位置,和/或,所述目标候选词与所述目标候选词对应的关键词之间的位置关系,所述目标候选词对应的关键词为在所述目标文本包括的关键词中距离所述目标候选词最近的关键词,所述目标候选词为所述候选词集合中的任意一个候选词,所述目标候选词与所述关键词为不同的分词;
根据所述目标候选词在文本库的所有文本中对应的权重值总和以及所述文本库中所有候选词对应的权重总和,计算出所述目标候选词的逆文本频率;
根据所述目标候选词的词频与逆文本频率的乘积,从所述候选词集合中确定出所述目标文本的主题词。
2.根据权利要求1所述的方法,其特征在于,所述目标候选词在所述目标文本中的位置,包括段首、段中、段尾、文章首段、文章尾段以及文章中间段中的任意一种或多种。
3.根据权利要求1所述的方法,其特征在于,所述目标候选词与所述目标候选词对应的关键词之间的位置关系,包括所述目标候选词与所述目标候选词对应的关键词是否位于同一段落、所述目标候选词与所述目标候选词对应的关键词是否位于同一语句、所述目标候选词与所述目标候选词对应的关键词之间的距离。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取影响因子对应的权重值的多个取值以及每个取值所对应的主题词提取精度;
根据所述多个取值以及每个取值对应的主题词提取精度构建线性函数;
确定所述线性函数中使得主题词提取精度为极大值时所对应的极值点,并将所述极值点作为所述影响因子对应的权重值的目标值。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
对所述目标文本进行分词,得到所述目标文本的初始分词结果;
对所述初始分词结果所包含的各个词进行词性标注;
根据分词的词性对所述初始分词结果进行分词过滤,得到所述候选词集合,所述候选词集合中候选词的词性为名词、动词或副词。
6.一种主题词的提取装置,其特征在于,所述装置包括:
第一确定模块,用于确定目标文本的候选词集合,所述候选词集合中包括所述目标文本的多个分词;
第一计算模块,用于根据所述候选词集合所包括的候选词总数以及目标候选词在所述目标文本的不同位置处分别对应的权重值,计算出所述目标候选词的词频,每个位置处的目标候选词所对应的权重值基于所述目标候选词的影响因子进行确定,所述影响因子包括所述目标候选词在所述目标文本中的位置,和/或,所述目标候选词与所述目标候选词对应的关键词之间的位置关系,所述目标候选词对应的关键词为在所述目标文本包括的关键词中距离所述目标候选词最近的关键词,所述目标候选词为所述候选词集合中的任意一个候选词,所述目标候选词与所述关键词为不同的分词;
第二计算模块,用于根据所述目标候选词在文本库的所有文本中对应的权重值总和以及所述文本库中所有候选词对应的权重总和,计算出所述目标候选词的逆文本频率;
第二确定模块,用于根据所述目标候选词的词频与逆文本频率的乘积,从所述候选词集合中确定出所述目标文本的主题词。
7.根据权利要求6所述的装置,其特征在于,所述目标候选词在所述目标文本中的位置,包括段首、段中、段尾、文章首段、文章尾段以及文章中间段中的任意一种或多种。
8.根据权利要求6所述的装置,其特征在于,所述目标候选词与所述目标候选词对应的关键词之间的位置关系,包括所述目标候选词与所述目标候选词对应的关键词是否位于同一段落、所述目标候选词与所述目标候选词对应的关键词是否位于同一语句、所述目标候选词与所述目标候选词对应的关键词之间的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911349731.6/1.html,转载请声明来源钻瓜专利网。