[发明专利]特征词去重方法、装置、设备及其存储介质在审
申请号: | 201810852217.3 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109062898A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 李利明 | 申请(专利权)人: | 汉能移动能源控股集团有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 郭栋梁 |
地址: | 100107 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征词 去重 词组 集合 存储介质 计算复杂度 申请 文本 关联 | ||
本申请公开了特征词去重方法、装置、设备及其存储介质。该方法包括:获取与特征词集合中当前特征词关联的词组集合;基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合;通过判断第一和值集合中的最小值的个数来确定去重后的特征词。根据本申请实施例的技术方案,通过计算ASCII码的和的方式,对具有相同含义的特征词进行去重,从而降低当前特征词去重方法的计算复杂度,且节省了计算空间,并显著地提高当前特征词对文本的概括能力。
技术领域
本申请一般涉及但不限于语义分析技术领域,具体涉及特征词去重方法、装置、设备及其存储介质。
背景技术
在自然语言处理技术中,自然语言中意义最小的单位是词组或称为单词。通常来说,提取单个词组作为特征词的意义在于其能够很好地概括文本的主要内容,并降低文本处理的复杂程度。现有技术基于文本提取特征词的算法有很多,例如词频-反文档频率(TF-IDF)方法、信息增益等算法。
随着技术的发展,从多篇文本中提取的特征词之间可能存在多词表述相同的含义,从而导致特征词冗余。当前的特征词去重技术,例如利用计算信息熵的方法提炼的特征词,或者主成分分析法通过词向量构成的向量空间映射到高维正交空间,再选择方差贡献大的特征维度等。但这些去重技术具有一定的主观性,且不能满足多篇文本提取的特征词保持较好的一致性。
另外,现有的特征映射方法的计算复杂度太高。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种至少能够降低计算复杂度的特征词去重的技术方案。
第一方面,本申请实施例提供了一种特征词去重方法,该方法包括:
获取与特征词集合中当前特征词关联的词组集合;
基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合;
通过判断第一和值集合中的最小值的个数来确定去重后的特征词。
第二方面,本申请实施例提供了一种特征词去重装置,该装置包括:
第一获取单元,用于获取与特征词集合中当前特征词关联的词组集合;
计算单元,用于基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合;
确定单元,用于通过判断第一和值集合中的最小值的个数来确定去重后的特征词。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如本申请实施例描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于:
该计算机程序被处理器执行时实现如本申请实施例描述的方法。
本申请实施例提供的特征词去重的技术方案,通过计算特征词的的关联词组的ASCII码的指定部分的和,以及通过判断其计算结果中最小值的个数,来对与特征词关联的词组进行去重,从而降低当前特征词去重方法的计算复杂度,且节省了计算空间,并显著地提高当前特征词对文本的概括能力。
进一步地,本申请实施例还通过预先构建的关联词词库,实现多篇文本提取的特征词之间的高度一致,并为后期词云构建和文本主旨提取等文本挖掘应用,提供了准确度的保障。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了本申请实施例提供的特征词去重方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉能移动能源控股集团有限公司,未经汉能移动能源控股集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810852217.3/2.html,转载请声明来源钻瓜专利网。