[发明专利]基于聚合加权矩阵压缩算法的文本语义表示方法有效
| 申请号: | 201410728902.7 | 申请日: | 2014-12-03 |
| 公开(公告)号: | CN105718440B | 公开(公告)日: | 2019-01-29 |
| 发明(设计)人: | 卫金茂;韦阳;徐恒鹏;樊文哲 | 申请(专利权)人: | 南开大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 300071*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 聚合 加权 矩阵 压缩 算法 文本 语义 表示 方法 | ||
本发明属于数据挖掘技术领域,具体提出了一种基于聚合加权矩阵压缩算法的文本表示方法。该方法通过构建全局平滑语境矩阵,弱化了语用习惯对单词语义的影响;利用单词向量聚合算法加权全局平滑语境,修正了单词向量权重度量方法;最后使用无穷范数压缩算法将全局平滑语境转化为向量来表征文本。相较于已有方法,由于保留了向量各维度的最大可能取值,因此更全面地表征了文本信息。
技术领域
本发明属于数据挖掘技术领域,具体提出一种基于聚合加权矩阵压缩算法的文本表示方法。
背景技术
纯文本作为一种广泛存在的数据形式(不同类型的网页、数字化的图书、日志文件等等),一直以来是自然语言处理、机器学习、人工智能等领域研究的重点。在现今网络数据不断膨胀的条件下,针对文本数据的分析处理技术显得愈发重要。传统文本处理技术的一个共同点是需要将以自然段落呈现的文本数据转换为可计算的数据形式。其中,将文本转化为固定大小的向量形式作为输入是许多文本处理技术的先决条件。以文本聚类分析为例,许多聚类算法的核心思想是,首先将文本转化为向量形式,再通过相似度比较算法比较文档向量两两之间的相似度,最后根据相似度计算结果将相似文档划分为一类。在此类文本聚类算法中,如何将文本转化为向量既是算法的先决条件,也是影响算法效果的关键因素。
文本表示方法的研究长久以来都是国内外许多学者的研究焦点。最早的文本表示法使用“词袋”模型,以自然语言中所有可能出现的单词作为维度,以每一个维度对应的单词在目标文档中出现的次数作为目标文档在该维度上的取值来构建文档向量。使用词袋模型生成的文档向量度量文档间相似度时,文档间重复出现的词越多,文档越相似。该模型的缺陷是当两个文档表达的语义相近,但使用不同的词进行描述时,模型不能发现这两个文档之间的相似性。针对这一问题,学者们提出了不同的解决方案。其中一种方案利用已有的单词向量生成方法,通过单词向量的加权累加生成文档向量。由于单词向量生成方法保证了同义词、近义词的单词向量位于词袋模型生成的特征空间中相邻的位置,因此由这些单词向量加权累加生成的文档向量也位于此特征空间中相邻的位置,从而保证了了语义相近的文档的表征向量也相似。然而,这种基于单词向量的文档向量生成方法通常关注于单词向量的生成方式,却忽略了单词向量的组合方式。加权累加方式倾向于使用权重较大的某些单词向量表征整篇文档,使得生成的文档向量信息缺失,更进一步造成了文档间相似度的错误估计。此外,现有方法在估计单词向量的权值时,并没有考虑单词向量本身的语义相似性,造成了权值估计的偏差。
发明内容
本发明旨在提出一种新的基于单词向量的文档向量生成方法,该方法侧重于对单词向量组合方式的改进。本发明首先通过对数平滑手段构造单词向量,提升了单词向量的语义表征能力;然后利用语料库级别的全局文档频信息和目标文档中的局部词频信息设计了单词向量聚合加权方法计算每个单词向量针对目标文档的权重,最后通过无穷范数求取,即最大值比较方法生成文档向量。该方法以单词向量间的相似性作为权值度量的依据,修正了单词向量权重的度量方法;充分比较了所有单词向量在相同维度的取值,不会盲目倾向于权重较大的单词,捕获了更多的语义信息,以期在实际应用中更具鲁棒性。
本方法首先根据给定的语料库生成单词向量,并保存由单词向量构成的全局平滑语境,具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410728902.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:螺杆钻扭矩测试装置
- 下一篇:一种基于改进型I2C总线的智能家居控制系统





