[发明专利]一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置有效
申请号: | 201810443084.4 | 申请日: | 2018-05-10 |
公开(公告)号: | CN108595706B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 陈小军;王大魁;时金桥;白离;胡兰兰;文新;张闯;马建伟 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。 | ||
搜索关键词: | 一种 基于 主题 词类 相似性 文档 语义 表示 方法 文本 分类 装置 | ||
【主权项】:
1.一种基于主题词类相似性的文档语义表示方法,其特征在于,包括以下步骤:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810443084.4/,转载请声明来源钻瓜专利网。