[发明专利]一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置有效

专利信息
申请号: 201810443084.4 申请日: 2018-05-10
公开(公告)号: CN108595706B 公开(公告)日: 2022-05-24
发明(设计)人: 陈小军;王大魁;时金桥;白离;胡兰兰;文新;张闯;马建伟 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 词类 相似性 文档 语义 表示 方法 文本 分类 装置
【说明书】:

发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。

技术领域

本发明属于信息技术领域,具体涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置。

背景技术

文本向量表示是文本挖掘和自然语言处理等领域的关键技术之一,良好的文档语义表示方法,能够提升信息检索、文本分类等任务的效果。

本发明是基于主题词类相似度的文档语义表示方法,是针对词袋模型的高维稀疏、无语义所提出的改进,目前以词袋模型为基础的文档表示方法有:

1)传统词袋模型表示方法(Bag of words,BOW),将单词出现的频率作为文本表示。

2)词频-逆文档频率模型表示方法(Term Frequency–Inverse DocumentFrequency,TF-IDF),该模型是在BOW上进行改进的,不仅考虑文本中单词的频率,同时考虑该单词在整个语料库中的重要程度。

3)模糊词袋模型表示方法(Fuzzy bag of words,FBOW),利用词向量表示文本语义信息,将单词与基础词表的余弦距离作为文本表示。

现有的词袋模型文档表示方法存在一些不足,其中BOW模型仅考虑单词的出现频率,不考虑单词的语义信息;TF-IDF模型通过词频和逆文档频率的组合将文本表示成向量,并没有考虑文本的语义信息,容易遭受数据稀疏的问题;而FBOW模型使用词语在语义空间中的位置关系来表示词语之间的相关性,而没有从文档整体所表示的语义信息进行表示。因此,文档语义向量表示方法还有很大的提升空间。

发明内容

本发明的目的是提出一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置,利用自然语言处理领域的词向量模型、词袋模型和WMD(Word Mover’sDistance)模型等语义分析技术,将文本表示为低维稠密具有语义信息的向量的文档语义表示。

本发明采用的技术方案如下:

一种基于主题词类相似性的文档语义表示方法,其特征在于,包括以下步骤:

1)使用词向量模型对语料进行训练,得到词向量;

2)在语义空间内对词向量进行聚类;

3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。

进一步地,步骤1)包括:

1-1)将语料集进行数据清洗,去除语料中的标点、停用词信息;

1-2)使用词向量模型训练语料,生成词向量。

进一步地,步骤2)使用高斯混合模型进行所述聚类,包括:

2-1)估计词向量由每个高斯分布生成的概率;通过极大似然估计更新高斯混合模型的参数;并重复迭代,直到高斯混合模型的似然函数收敛为止;

2-2)利用高斯混合模型预测词向量类别,得到词向量类别分布。

进一步地,根据时间、空间、词表大小对采用高斯混合模型进行聚类的聚类大小进行动态设置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810443084.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top