[发明专利]一种关键词抽取方法、装置、电子设备及存储介质在审
| 申请号: | 201811558096.8 | 申请日: | 2018-12-19 |
| 公开(公告)号: | CN109670176A | 公开(公告)日: | 2019-04-23 |
| 发明(设计)人: | 徐乐乐 | 申请(专利权)人: | 武汉瓯越网视有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 430070 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 关联词 特征词 集合 关键词抽取 句法分析 文本 权重 关联 特征词确定 文本关键词 存储介质 电子设备 算法计算 提炼 改进 | ||
1.一种关键词抽取方法,其特征在于,包括:
对待处理文本进行句法分析,并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合;
基于所述特征词集合以及关联词集合计算每组关联词的关联程度;
根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重;
将权重达到设定阈值的特征词确定为所述待处理文本的关键词。
2.根据权利要求1所述的方法,其特征在于,所述对待处理文本进行句法分析,并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合,包括:
对待处理文本进行句法分析,得到句法分析结果;
对所述句法分析结果进行停用词去除以及去重操作,得到所述待处理文本的特征词集合以及关联词集合。
3.根据权利要求1所述的方法,其特征在于,所述基于所述特征词集合以及关联词集合计算每组关联词的关联程度,包括:
按照如下公式计算每组关联词的关联程度:
其中,wordi表示待处理文本中的第i个特征词,wordj表示待处理文本中的第j个特征词,wordij表示特征词wordi与特征词wordj的关联程度,tf(wordi)表示特征词wordi在待处理文本中的出现次数,tf(wordj)表示特征词wordj在待处理文本中出现的次数,tf(wordi,wordj)表示特征词wordi与特征词wordj在待处理文本中关联出现的次数。
4.根据权利要求1所述的方法,其特征在于,所述根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重,包括:
根据关联词之间的关联关系生成文本图模型;
针对所述文本图模型中任意两个节点之间的初始连接权重,利用与节点对应的特征词之间的关联程度进行初始化;
根据所述文本图模型基于改进的textrank算法得到每个特征词的权重;
其中,关联词之间的关联关系依据句法分析结果确定,每个特征词对应所述文本图模型中的一个节点,指向当前特征词的特征词组成当前特征词节点的前驱节点集合,当前特征词指向的特征词组成当前特征词节点的后驱节点集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述文本图模型基于改进的textrank算法得到每个特征词的权重,包括:
按照如下公式迭代所述文本图模型中各特征词的权重,直到各特征词的权重收敛至预设范围:
其中,WS(wordi)表示特征词wordi的权重,WS(wordj)表示特征词wordj的权重,d为阻尼系数,wordji表示特征词wordj指向特征词wordi的边的权重,wordji的初始值为特征词wordj与特征词wordi的关联程度,wordjk表示特征词wordj指向特征词wordk的边的权重,wordjk的初始值为特征词wordj与特征词wordk的关联程度,In(wordi)表示特征词wordi对应节点的前驱节点集合,Out(wordj)表示特征词wordj对应节点的后驱节点集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉瓯越网视有限公司,未经武汉瓯越网视有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811558096.8/1.html,转载请声明来源钻瓜专利网。





