[发明专利]一种用于情报快速整编的中文文本分类方法有效
申请号: | 202110509222.6 | 申请日: | 2021-05-11 |
公开(公告)号: | CN112948588B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 郭爱博;赵翔;庞宁;谭真;王吉;李硕豪;张军 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 情报 快速 整编 中文 文本 分类 方法 | ||
1.一种用于情报快速整编的中文文本分类方法,其特征在于,包括以下步骤:
获取情报中的中文文本,将每个字符ci转换为向量xi,将每个输入词wi训练得到dw维向量,对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感觉嵌入;
利用字符意义LSTM单元来融合字符的多种字符意义、利用单词意义LSTM单元来融合单词的多种单词意义以及利用融合LSTM单元来融合字符级和单词级特征,获得双向隐藏向量序列{h1,h2,...,hm};
将所述双向隐藏向量序列馈送到字符级注意模块以产生句子级特征向量,获得最终表示g;
将所述最终表示g传输到完全连接层中以计算每种类型的置信度得分;
以交叉熵损失为目标函数,通过迭代优化模型中的所有参数直至收敛,以最小化损失函数;
对分类后的情报文本根据用户需要的内容和格式进行组织,生成用户需要的情报产品;
其中,所述将每个字符ci转换为向量xi的步骤如下:
给定一个由m个字符组成的句子s={c1,c2,...,cm},通过查找预先训练的嵌入表,将每个字符ci通过下式映射到具有相应的字母组合嵌入的向量表示中:xi=Ec(ci),其中表示字符嵌入表,|Vc|代表字符的词汇量,表示字符ci的unigram 嵌入;
所述将每个输入词wi训练得到dw维向量的步骤如下:对应输入句子的单词序列s={w1,w2,...,wn},每个单词wi通过下式捕获单词的语义和句法信息:wi=Ew(wi),其中,是词汇表为|Vw|的单词嵌入表,句子的向量表示为{w1,w2,...,wn};
所述通过共同学习词语和感觉来获得多重感觉嵌入的步骤如下:
其中代表意义嵌入表,|Vsen|是词汇量,是的意义嵌入,代表了第j个字符的意义。
2.根据权利要求1所述的用于情报快速整编的中文文本分类方法,其特征在于,利用字符意义LSTM单元来融合字符的多种字符意义的步骤包括通过以下公式计算ci第j个意义的单元的门:
其中代表字符ci的意义嵌入,是字符ci-1的前向隐表示,表示ci-1的单元状态,和和bc是训练参数,分别代表了输入门,遗忘门和字符ci的字符级特征,σ(·)表示sigmoid函数。
3.根据权利要求1所述的用于情报快速整编的中文文本分类方法,其特征在于,所述利用单词意义LSTM单元来融合单词的多种单词意义的步骤包括:
通过一个附加的LSTM单元获得单词wb,e的第j个意义的单元门:
其中,是单词wb,e的第j个意义的嵌入,和是字符cb-1的正向隐藏向量和单元状态;
通过以下方式计算ci的单元状态:
其中和如下定义:
和分别代表了单词wb,e、字符ci和句子c的各个意义层级的单元状态,是字符ci的输入门,和由控制单词意义和字符意义的附加门生成,代表了单词wb,e的第j个意义的嵌入结合附加的单词意义门后的特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110509222.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钟表校准的装置及方法
- 下一篇:一种车载语音处理方法及车载信息娱乐系统