[发明专利]文本对象分类方法及装置有效
申请号: | 201710209192.0 | 申请日: | 2017-03-31 |
公开(公告)号: | CN108664512B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 刘晓华;李航;涂兆鹏;严哲峰 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06N3/08 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 罗振安 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 对象 分类 方法 装置 | ||
本申请公开了一种文本对象分类方法及装置,属于互联网技术领域。所述方法包括:获取第i层节点的节点特征,节点特征为第一类特征和第二类特征拼接后的拼接特征,或者,第二类特征,第一类特征通过人工特征工程提取,第二类特征通过机器学习,每个第i+1层节点对应有神经网络;将属于同一个第i+1层节点的各个第i层节点的节点特征输入第i+1层节点对应的神经网络,得到第i+1层节点的第二类特征;当第i+1层节点是根节点时,将根节点的节点特征输入分类器,通过分类器输出文本对象的类别标签。本申请解决了通过神经网络提取到的特征比较片面,进而影响到分类结果的准确的问题,能够提取更加全面的特征,提高分类结果的准确性。
技术领域
本申请涉及互联网技术领域,特别涉及一种文本对象分类方法及装置。
背景技术
网页分类是指根据网页文档的内容将网页划分为不同的类别,并添加对应的类别标签。
网页文档是用超文本标记语言(英文:HyperText Markup Language,简称:HTML)描述的文本,类别标签的名字通常对应具体的应用场景,比如:新闻网页的类别标签可能是“国内”、“国际”、“政治、“经济”等,敏感网页的类别标签可能是“包含敏感信息”和“不包含敏感信息”。在对网页进行分类时,通常将网页看做一个文本,然后用词向量来表示文本中的每个词,基于词向量表示,通过神经网络对文本进行编码,得到文本的特征,然后将文本的特征输入到分类器中进行分类,得到文本所属的类别标签。
但通过神经网络提取到的特征比较片面,不能够完全描述出网页的特征,进而会影响到分类结果的准确性。
发明内容
为了解决现有技术中通过神经网络提取到的特征比较片面,不能够完全描述出网页的特征,进而会影响到分类结果的准确性的问题,本申请实施例提供了一种文本对象分类方法及装置。所述技术方案如下:
第一方面,提供了一种文本对象分类方法,该文本对象具有树结构,该树结构中包括n层节点,树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分,n和i为正整数,1≤i<n,最底层的节点被称为第一层节点,最顶层的节点被称为根节点,根节点的数量为一个,通过人工特征工程提取到的特征被称为第一类特征,通过机器学习到的特征被称为第二类特征;第i+1层节点在提取节点特征时,首先获取属于该第i+1层节点的各个第i层节点的节点特征,该节点特征为对应节点的第二类特征或对应节点的第一类特征和第二类特征进行拼接后得到的拼接特征,然后将各个第i层节点的节点特征输入与第i+1层节点对应的神经网络,每个第i+1层节点对应有各自的神经网络,由神经网络输出该第i+1层节点的第二类特征;从树结构的最底层起逐层向上计算出各个节点的节点特征,直到计算出根节点的节点特征后,根节点的节点特征被输入分类器,由分类器输出文本对象的类别标签;其中,在每个节点的节点特征的确定过程中,至少有一个节点的节点特征是将第一类特征和第二类特征进行拼接得到的拼接特征,另外,第i+1层节点还被称为中间节点,第i层节点还被称为是第i+1层节点的孩子节点。
通过在提取文本对象的节点特征时,将文本对象的树结构中的至少一个节点的节点特征由第一类特征和第二类特征拼接得到,使得提取文本对象的节点特征中不仅只有通过神经网络得到的第二类特征,同时还融合了通过人工特征工程提取到的第一类特征,使得根节点输出的节点特征能够更加全面的表达出文本对象的特征,解决了相关技术中通过神经网络提取到的特征比较片面,不能够完全描述出网页的特征,进而会影响到分类结果的准确性的问题,达到了提取更加全面的特征,提高分类结果的准确性的效果。
另外,通过将同一个第i+1层节点的各个第i层节点的节点特征输入第i+1层节点对应的神经网络中,得到第i+1层节点的第二类特征,使得具有树状结构的文本对象能够逐层计算各个节点的节点特征。
另外,由于每个第i+1层节点对应有各自的神经网络,使得神经网络的设计方式更加灵活,能够在树结构的任意节点上将第一类特征和第二类特征进行拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710209192.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:获取网页信息方法和装置
- 下一篇:用于推送关键词的方法、装置以及设备