[发明专利]一种集成浅层语义表示向量的深度学习文本分类方法有效

申请号：	201910284980.5	申请日：	2019-04-10
公开（公告）号：	CN110069632B	公开（公告）日：	2022-06-07
发明（设计）人：	王华珍;李小整;何霆;贺惠新;李弼程	申请（专利权）人：	华侨大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/30;G06F40/289;G06F40/242;G06N3/04;G06N3/08
代理公司：	厦门市首创君合专利事务所有限公司 35204	代理人：	张松亭;李艾华
地址：	362000 福建省***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种集成语义表示向量深度学习文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种集成浅层语义表示向量的深度学习文本分类方法，其特征在于，包括以下步骤：

S1：输入文本语料，采用结巴分词工具对语料进行分词；

S2：基于步骤S1中得到的词语，利用word2vec工具生成每一个词q_i的词向量表达L_w；

S3：基于浅层语义词汇Dict，生成每一个词q_i的浅层语义向量表达S_c，如下：

S31：从以下八个方面来挖掘行业词汇从而构建浅层语义词典：(1)开源词典D_open；(2)否定副词词典D_not；(3)程度副词词典D_adv；(4)网络词典D_net；(5)符号词典D_emoticon；(6)语气词词典D_mood；(7)领域词典D_profession；(8)其他包括手工构建的词典D_other；

S32：构建浅层语义向量S_c＝(x_open,x_not,x_adv,x_net,x_emoticon,x_mood,x_profession,x_other)，区别于L_w中每个x_i表示一个单独的元素，S_c中每个x_i并不表示单个元素而是可能包含多个元素，其元素个数由对应词典规模大小决定；