[发明专利]一种基于深度学习的文本表示与分类方法在审
申请号: | 201810409742.8 | 申请日: | 2018-05-02 |
公开(公告)号: | CN108573068A | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 胡向东;许奥狄;钱宏伟;周巧;唐贤伦 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于深度学习的文本表示与分类方法,属于自然语言领域。涉及利用深度信念网络DBN、深度波尔茨曼机DBM和卷积神经网络CNN三类深度学习模型,解决文本表示与分类中传统的基于词袋模型BOW文本表示的分类方法存在的高维度、高稀疏和难以处理标签数目不确定、包含大量专业词汇的专业摘要文本问题。本发明充分利用DBM模型自动捕获文本特征对输入文档进行降维、DBN模型抽取高层文档、CNN模型权重共享及局部连接的优势;本发明设计了一个针对文本表示和文本分类的高效模型,具有较高的F测度值、良好ROC曲线和实时性强的优点。 | ||
搜索关键词: | 文本表示 分类 自然语言 测度 卷积神经网络 词袋模型 局部连接 模型抽取 输入文档 文本分类 文本特征 信念网络 摘要文本 专业词汇 自动捕获 传统的 实时性 高维 降维 权重 文档 稀疏 学习 标签 共享 高层 | ||
【主权项】:
1.一种基于深度学习的文本表示与分类方法,其特征在于:该方法包括以下步骤:S1:初始化,生成一个内容为空的离线系统数据库,数据库包括命名实体数据集、文档词集合数据集、基于深度学习的多层网络参数三个子数据库;S2:将采集到的数据进行去重、清洗作为纯净数据集,将纯净数据集进行词性标注并进行命名实体识别得到命名实体数据集,然后存入命名实体数据集子数据库中;将纯净数据集去停用词和词干化处理得到文档词集合数据集并存入文档词集合数据集子数据库中;S3:将文档词数据集作为word2vec词向量模型的输入,得到词向量,并在得到的词向量中引用加权系数来表示该单词在当前文本中的重要程度,最终得到训练好的词向量模型;S4:将步骤S3中得到词向量模型作为CNN模型的输入得到文档的局部特征;S5:将步骤S2中得到的命名实体作为全局信息的补充特征向量,与步骤S4中的文档局部特征同时作为DBM模型的输入,通过DBM模型融合命名实体特征和局部特征并对融合后的特征集进行降维;S6:将步骤S5中降维的特征作为DBN模型的输入,通过DBN模型抽取得到高层文档特征表示,然后对高层文档特征表示进行加标签处理最终得到一个层次分类的结果,根据该层次分类后的结果能有效提高检索所需信息的准确率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810409742.8/,转载请声明来源钻瓜专利网。