[发明专利]一种文档分类方法及装置在审
申请号: | 201810983329.2 | 申请日: | 2018-08-27 |
公开(公告)号: | CN109241284A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 陈洪辉;刘俊先;蔡飞;舒振;陈涛;罗爱民;潘志强;张鑫;陈皖玉 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 马骁;于洁 |
地址: | 410003*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档分类 输入源 交互层 矩阵 交互矩阵 交互信息 文本表示 语义联系 平均化 最大化 构建 文档 注意力 转化 | ||
本发明公开一种文档分类方法及装置。该文档分类方法包括:根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;将所有交互信息表示成交互矩阵;通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。本发明提供的方案,能更好反映文档中各成分间的语义联系,也可以提升文档分类效率。
技术领域
本发明涉及计算机网络技术领域,具体涉及一种文档分类方法及装置。
背景技术
在自然语言处理中,文档分类通常是赋予文本一个或多个类别标签。现有技术中,文档分类有广泛的应用,例如应用在情感分类、文档排序以及话题标识等方面。传统用于文档分类的方法主要根据该文档与某一类标签的相关性赋予标签,这通常是根据统计性指标进行估计,例如:共现词的频率、共现词对的频率和每个词在不同文档中的权重分数等。这种统计性分类方法已经取得了明显的进步,但当它们应用于大规模语料库上时,会遭受到数据稀疏性和维度爆炸问题。
为了解决这个问题,现有技术中还出现了基于神经网络的文档分类方法,该方法通过学习低维的文档表示来应对这种现象。这种基于神经网络的文档分类,具有解决文档表示维度问题的优势,但通常依赖于网络的结构,并没有直接刻画存在于文档中的成分间交互,也即并没有直接模拟存在于文档中各元素间的交互,例如词或句子,这导致了语义的缺失。
因此,现有的文档分类方法,仍有待改进。
发明内容
有鉴于此,本发明的目的在于提出一种文档分类方法及装置,能更好反映文档中各成分间的语义联系。
根据本发明的一个方面,提供一种文档分类方法,包括:
根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;
将所有交互信息表示成交互矩阵;
通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。
优选的,所述根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建,包括:
将获取的输入源元素进行向量化,得到输入源元素向量;
通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;
确定所述输入源元素和所述输入背景的交互。
优选的,所述确定所述输入源元素和所述输入背景的交互,包括:
使用注意力机制确定所述输入源元素和所述输入背景的交互。
优选的,所述通过平均化交互层、最大化交互层将所述交互矩阵转化为文本表示,包括:
在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;
在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。
优选的,所述通过注意力层将所述交互矩阵转化为文本表示,包括:
将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示;
获得所述交互对应的隐形表示的权重分布;
根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。
优选的,所述方法还包括:
所述注意力层在词水平上采用标准注意力机制,在句子水平上采用自交互注意力机制。
根据本发明的另一个方面,提供一种文档分类装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810983329.2/2.html,转载请声明来源钻瓜专利网。