[发明专利]基于层次混合网络的标题党文章检测方法及联邦学习策略在审
| 申请号: | 201811332621.4 | 申请日: | 2018-11-09 |
| 公开(公告)号: | CN109657055A | 公开(公告)日: | 2019-04-19 |
| 发明(设计)人: | 廖枫;卓汉逵 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 广州容大专利代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
| 地址: | 510275 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 向量 关联向量 关联信息 混合网络 内容文本 特征提取 文档向量 文章标题 有效地 检测 标题编码器 内容编码器 标题特征 分类网络 使用机器 文档标题 文档内容 学习策略 提取器 文本 关联 阅读 分类 | ||
本发明公开了一种基于层次混合网络的标题党文章检测模型及联邦策略,所述模型包括:标题编码器,用于对文章标题进行特征提取,将文章标题文本有效地编码成标题向量;内容编码器,用于对内容文本进行特征提取,将内容文本有效地编码成文档向量;关联信息提取器,用于使用机器阅读理解相关技术,对所述标题向量及文档向量进行关联,从而得到两者的关联向量;分类网络,用于基于标题特征向量、文档向量以及关联向量进行标题党分类,本发明通过利用文档标题与文档内容之间的关联信息,可取得更好的标题党检测效果。
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于层次混合网络的标题党文章检测方法及联邦学习策略。
背景技术
目前大多数互联网媒体的收入依赖于用户点击量。由于竞争激烈,为吸引用户的关注,某些媒体会在撰写文章的时候会采用一个夸张而又引人注目的标题。而当用户被标题吸引,点击进去观看文章内容时往往会大失所望。这种标题与内容有着较大落差的文章,称为标题党。
为减少标题党的传播,人们开始研究如何使用机器学习技术进行标题党检测。学术界及工业界的通用做法是将标题党检测处理成文本分类问题。其中大部分做法都是针对标题部分的文本,进行短文本分类。少数做法会考虑内容部分信息,与标题部分的文本综合到一起,进行长文本分类。
而人类在进行标题党审核时,往往会综合考虑标题与内容之间的联系。由此可见,在标题党检测任务上,标题与内容之间的关联信息是十分重要的。而目前学术界及工业界的标题党检测做法中无一考虑到标题与内容的联系。
目前常见的标题党检测做法是将其处理成文本分类任务。传统的文本分类任务的做法是人工提取文本中的相关特征,然后将相应特征输入到支持向量机,决策树等分类器中进行分类。随着深度学习的蓬勃发展,现今大部分文本分类任务的做法基于深度神经网络,目前最先进的文本分类方法为基于多层注意力机制的双向递归神经网络的文档分类方法,这种基于多层注意力机制的双向递归神经网络的文档分类方法一般先利用带有注意力机制的双向递归神经网络以词为粒度(以相应的词向量作为输入),将一个句子编码成向量;再类似地利用另一个带有注意力机制的双向递归神经网络以句子为粒度(利用上述编码的句子向量作为输入),最终便将一篇文章编码成一个向量。基于该文档向量,再进行相关分类,由于基于多层注意力机制的双向递归神经网络的文档分类方法的结构设计十分先进,其充分利用到了文档的结构信息,故在大部分文档分类任务中,该方法都取得了十分优异的效果。
由于人类在进行标题党审核时,往往会综合考虑标题与内容之间的联系,由此可见,在标题党检测任务上,标题与内容的关联信息是十分重要的。然而,基于多层注意力机制的双向递归神经网络的文档分类方法虽然在大部分文档分类任务上表现优异,但其在进行文档分类时,并没有利用到这部分重要的信息,而这也是基于多层注意力机制的双向递归神经网络的文档分类方法的最大缺陷。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于层次混合网络的标题党文章检测方法及联邦学习策略,以有效地利用到文档标题与文档内容之间的关联信息,从而取得更好的标题党检测效果。
为达上述及其它目的,本发明提出一种基于层次混合网络的标题党文章检测模型,包括:
标题编码器,用于对文章标题进行特征提取,将文章标题文本有效地编码成标题向量;
内容编码器,用于对内容文本进行特征提取,将内容文本有效地编码成文档向量;
关联信息提取器,用于使用机器阅读理解相关技术,对所述标题向量及文档向量进行关联,从而得到两者的关联向量;
分类网络,用于基于标题特征向量、文档向量以及关联向量进行标题党分类,获得预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811332621.4/2.html,转载请声明来源钻瓜专利网。





