[发明专利]一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置有效
| 申请号: | 201810443084.4 | 申请日: | 2018-05-10 |
| 公开(公告)号: | CN108595706B | 公开(公告)日: | 2022-05-24 |
| 发明(设计)人: | 陈小军;王大魁;时金桥;白离;胡兰兰;文新;张闯;马建伟 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 主题 词类 相似性 文档 语义 表示 方法 文本 分类 装置 | ||
1.一种基于主题词类相似性的文档语义表示方法,其特征在于,包括以下步骤:
1)使用词向量模型对语料进行训练,得到词向量;
2)在语义空间内对词向量进行聚类;
3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示;
其中,步骤3)包括:
3-1)对输入的待表示文档doc进行数据清洗;
3-2)计算doc的权重矩阵d=[d1,d2,…,dm],其中m是doc出现的词项个数,di代表第i个词项在doc中出现的频率;
3-3)使用WMD算法计算K个聚类类别与doc之间的距离z1,z2,…,zK;
3-4)输出doc的向量表示z=[z1,z2,…,zK];
其中步骤3-3)计算第k个类别与doc之间的距离的过程是:
3-3-1)设该聚类类别ck含有n个词项,ck的权重矩阵为d′=[d′1,d′2,…,d′n],n是该类别中的单词个数,d′i代表第i个词项在聚类类别ck中出现的频率,
3-3-2)根据doc中出现的单词集合W和聚类类别ck中出现的单词集合W’,计算集合W和集合W’之间欧式距离矩阵C,矩阵C中的元素cij代表doc中第i个单词与聚类类别ck中第j个词之间的欧式距离;
3-3-3)利用WMD算法计算doc和ck之间的距离,计算公式如下:
目标函数
约束条件:
3-3-4)重复步骤3-3-1),3-3-2),3-3-3),直至向量z的K个元素z1,z2,…,zK全部生成。
2.根据权利要求1所述的方法,其特征在于,步骤1)包括:
1-1)将语料集进行数据清洗,去除语料中的标点、停用词信息;
1-2)使用词向量模型训练语料,生成词向量。
3.根据权利要求1所述的方法,其特征在于,步骤2)使用高斯混合模型进行所述聚类,包括:
2-1)估计词向量由每个高斯分布生成的概率;通过极大似然估计更新高斯混合模型的参数;并重复迭代,直到高斯混合模型的似然函数收敛为止;
2-2)利用高斯混合模型预测词向量类别,得到词向量类别分布。
4.根据权利要求3所述的方法,其特征在于,根据时间、空间、词表大小对采用高斯混合模型进行聚类的聚类大小进行动态设置。
5.根据权利要求4所述的方法,其特征在于,设置聚类大小为原有词项的10%。
6.一种采用权利要求1至5中任一权利要求所述方法的基于主题词类相似性的文档语义表示装置,其特征在于,包括:
词向量训练模块,负责使用词向量模型对语料进行训练,得到词向量;
聚类模块,负责在语义空间内对词向量进行聚类;
语义表示模块,负责使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。
7.一种文本分类方法,其特征在于,包括以下步骤:
1)采用权利要求1至5中任一权利要求所述方法对文档进行语义表示,得到文档的语义表示向量;
2)通过计算文档的语义表示向量之间的相似性,实现文档的分类。
8.一种文本分类装置,其特征在于,包括:
文档语义表示模块,负责采用权利要求1至5中任一权利要求所述方法对文档进行语义表示,得到文档的语义表示向量;
分类模块,负责通过计算文档的语义表示向量之间的相似性,实现文档的分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810443084.4/1.html,转载请声明来源钻瓜专利网。





