[发明专利]基于语义相关性的文本分类方法有效

专利信息
申请号: 202110665361.8 申请日: 2021-06-16
公开(公告)号: CN113361615B 公开(公告)日: 2022-11-11
发明(设计)人: 薛非;张成鲁;刘宝琪;李聪颖;席欢;余翌帆;周玉秀;雷帅 申请(专利权)人: 中国人民解放军军事科学院军事科学信息研究中心
主分类号: G06K9/62 分类号: G06K9/62;G06F40/284;G06F40/30;G06N3/04;G06N3/08
代理公司: 湖北高韬律师事务所 42240 代理人: 张承接
地址: 100142 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语义 相关性 文本 分类 方法
【权利要求书】:

1.一种基于语义相关性的文本分类方法,其特征在于,所述方法包括以下步骤:

对有标签文本数据进行预处理,从而获取有标签文本数据中的文本监督器,所述文本监督器为文本中与文本类别语义密切相关的一系列词;

通过文本关联结构信息,构建文本监督器识别子模型,获取无标签文本中的文本监督器;

根据文本监督器和文本类别之间的强关联性,将标注有文本监督的文本数据作为输入,采用经典的双向长短时记忆网络(Bi-directional Long Short-Term Memory,BILSTM)模型,提取原始文本的语义特征;

利用特征增强机制获取基于文本监督器增强表示的文本特征,采用拼接的方式将原始文本的语义特征和基于文本监督器增强表示的文本特征进行融合;

将融合结果经SoftMax函数,进而获取文本分类结果。

2.根据权利要求1所述的一种语义相关性的文本分类方法,其特征在于,所述对有标签文本数据进行预处理,从而获取有标签文本数据中的文本监督器包括:

将有标签文本数据进行词嵌入,所述词嵌入采用基于词级别和字符级别的向量进行拼接,获取有标签文本中每一个词所对应的词向量,以及文本类别词的语义特征;然后通过文本中每一个词所对应的词向量和文本类别词的语义特征进行内积得到内积分数向量Escore,再利用归一化方法将Escore归一化到区间[0,1],选择归一化分数大于阈值α1的词作为文本监督器词,所述α1设置为0.6。

3.根据权利要求1所述的一种语义相关性的文本分类方法,其特征在于,所述构建文本监督器识别子模型包括图构造、图分解、图嵌入、词节点分类:

对于图构造方式是基于输入的文本序列信息构造句子图,并通过顺序边和语义边两种边融合进行句子图的连接;

其中顺序边按照文本中词节点的顺序依次连接;语义边是根据文本中各个词节点所对应的词向量之间相互内积得到内积分数向量Escore,再利用归一化方法将Escore归一化到区间[0,1],选择归一化分数大于阈值α2的两个词节点进行连接,所述α2设置为0.7;

对于图分解方式是依次选取文本中的词节点作为中心词节点,并取其一阶邻居子图将句子图分解为N个词节点子图,并添加一个节点特征,从而区分词节点子图的中心词节点和其它词节点;然后利用图神经网络(GNN)嵌入词节点子图,捕获中心词节点的一阶邻居子图的结构信息,并将这些结构信息聚合到中心词节点,获取每一个中心词节点的嵌入特征,得到词节点嵌入特征矩阵;

将词节点嵌入特征矩阵作为输入,通过一个词节点分类器,获取每一个词节点分数,进而获取文本类别监督识别结果。

4.根据权利要求1所述的一种语义相关性的文本分类方法,其特征在于,所述特征增强机制包括:

将原始文本特征,通过多通道注意力机制(Structured Attention)学习多组权重向量来拟合文本中文本监督器不同成份的重要性,深入捕获文本监督器的语义信息,计算方式如下:

αm=SoftMax(U2tanh(U1MT))fm=αmM

其中,M代表了文本中所有文本监督器词的隐藏层特征矩阵,U1和U2和代表了计算文本监督器注意力分数的可学习参数矩阵,αm分别代表了文本监督器特征的注意力权重,fm代表了文本监督器特征,

为了获取基于文本监督器增强表示的文本特征H',通过引入全局注意力机制(GlobalAttention),关注当前单词与文本中其它单词相关性,得到该单词在文本层面的特征表示,深入学习句级别的语义信息,如下所示:

α=SoftMax(vTtanh(W1HT+W2fmT)T)

H'=αH

其中,v,W1,W2为可学习参数矩阵,α为基于文本监督器增强表示的文本特征的注意力权重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院军事科学信息研究中心,未经中国人民解放军军事科学院军事科学信息研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110665361.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top