[发明专利]一种基于深度学习的文本表示与分类方法在审

申请号：	201810409742.8	申请日：	2018-05-02
公开（公告）号：	CN108573068A	公开（公告）日：	2018-09-25
发明（设计）人：	胡向东;许奥狄;钱宏伟;周巧;唐贤伦	申请（专利权）人：	重庆邮电大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400065 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于深度学习的文本表示与分类方法，属于自然语言领域。涉及利用深度信念网络DBN、深度波尔茨曼机DBM和卷积神经网络CNN三类深度学习模型，解决文本表示与分类中传统的基于词袋模型BOW文本表示的分类方法存在的高维度、高稀疏和难以处理标签数目不确定、包含大量专业词汇的专业摘要文本问题。本发明充分利用DBM模型自动捕获文本特征对输入文档进行降维、DBN模型抽取高层文档、CNN模型权重共享及局部连接的优势；本发明设计了一个针对文本表示和文本分类的高效模型，具有较高的F测度值、良好ROC曲线和实时性强的优点。
搜索关键词：	文本表示分类自然语言测度卷积神经网络词袋模型局部连接模型抽取输入文档文本分类文本特征信念网络摘要文本专业词汇自动捕获传统的实时性高维降维权重文档稀疏学习标签共享高层
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度学习的文本表示与分类方法，其特征在于：该方法包括以下步骤：S1：初始化，生成一个内容为空的离线系统数据库，数据库包括命名实体数据集、文档词集合数据集、基于深度学习的多层网络参数三个子数据库；S2：将采集到的数据进行去重、清洗作为纯净数据集，将纯净数据集进行词性标注并进行命名实体识别得到命名实体数据集，然后存入命名实体数据集子数据库中；将纯净数据集去停用词和词干化处理得到文档词集合数据集并存入文档词集合数据集子数据库中；S3：将文档词数据集作为word2vec词向量模型的输入，得到词向量，并在得到的词向量中引用加权系数来表示该单词在当前文本中的重要程度，最终得到训练好的词向量模型；S4：将步骤S3中得到词向量模型作为CNN模型的输入得到文档的局部特征；S5：将步骤S2中得到的命名实体作为全局信息的补充特征向量，与步骤S4中的文档局部特征同时作为DBM模型的输入，通过DBM模型融合命名实体特征和局部特征并对融合后的特征集进行降维；S6：将步骤S5中降维的特征作为DBN模型的输入，通过DBN模型抽取得到高层文档特征表示，然后对高层文档特征表示进行加标签处理最终得到一个层次分类的结果，根据该层次分类后的结果能有效提高检索所需信息的准确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810409742.8/，转载请声明来源钻瓜专利网。

上一篇：一种商品信息的匹配搜索系统与方法
下一篇：一种加速压缩流量正则表达式匹配的Twins方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的文本表示与分类方法在审

专利文献下载