[发明专利]用于文本的数据处理方法及其系统在审
申请号: | 201711391271.4 | 申请日: | 2017-12-20 |
公开(公告)号: | CN109948401A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 朱德伟;李树前;李伟奇;稂顾 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕雁葭 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类信息 文本分类 文字内容 数据处理 相似度 计算机可读存储介质 数据处理系统 计算机系统 匹配 | ||
本公开提供了一种用于文本的数据处理方法,包括:获取文本的文字内容,以确定文本对应的文本分类信息;获取文本中包含的配图,以确定配图对应的配图分类信息;计算配图分类信息与文本分类信息的第一相似度;以及根据计算得到的第一相似度,确定配图与文本的文字内容是否匹配。本公开还提供了一种用于文本的数据处理系统、一种计算机系统和一种计算机可读存储介质。
技术领域
本公开涉及数据处理领域,更具体地,涉及一种用于文本的数据处理方法和用于文本的数据处理系统、计算机系统和计算机可读存储介质。
背景技术
随着科技的快速发展,使用APP阅读已经发展成为一种时尚。随着用户阅读水平的不断提高,优质内容的阅读材料越来越受到青睐。
在相关技术中,优质内容的阅读材料大多是人为编辑出来的,例如传统的媒体如凤凰、新浪等,也有一些是通过大规模爬虫结合推荐引擎处理后得到的,例如今日头条等。
以文章为例,一篇高质量的文章,除了要有优质的内容之外,还要图文并茂,并且配图要与文章内容紧密相关。
然而,在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:
相关技术在检测一篇文章是否是高质量的文章时,难以高效地检测出文章内容与配图是否匹配。
发明内容
有鉴于此,本公开提供了一种用于文本的数据处理方法和用于文本的数据处理系统。
本公开的一个方面提供了一种用于文本的数据处理方法,包括获取文本的文字内容,以确定上述文本对应的文本分类信息;获取上述文本中包含的配图,以确定上述配图对应的配图分类信息;计算上述配图分类信息与上述文本分类信息的第一相似度;以及根据计算得到的上述第一相似度,确定上述配图与上述文本的文字内容是否匹配。
根据本公开的实施例,上述方法还包括获取上述配图的描述信息;获取上述文本的摘要信息;计算上述配图的描述信息与上述文本的摘要信息的第二相似度;以及根据上述第一相似度和上述第二相似度,确定上述配图与上述文本的文字内容是否匹配。
根据本公开的实施例,计算上述配图的描述信息与上述文本的摘要信息的第二相似度包括:对上述描述信息和上述摘要信息分别进行分词处理,得到属于上述描述信息的一个或多个词语以及属于上述摘要信息的一个或多个词语;根据分词处理结果,确定上述描述信息中包含的每个词语的重复次数以及上述摘要信息中包含的每个词语的重复次数;根据确定出的上述描述信息中包含的每个词语的重复次数,确定上述描述信息的第一词频向量;根据确定出的上述摘要信息中包含的每个词语的重复次数,确定上述摘要信息的第二词频向量;以及根据上述第一词频向量和上述第二词频向量,计算上述第二相似度。
根据本公开的实施例,根据上述第一相似度和上述第二相似度,确定上述配图与上述文本的文字内容是否匹配包括:预先设定上述第一相似度的权重为第一权重;预先设定上述第二相似度的权重为第二权重;按照预设算法基于上述第一相似度、上述第一权重、上述第二相似度和上述第二权重进行计算,得到对应的相似度计算值;以及若上述相似度计算值大于相似度阈值,则确定上述配图与上述文本的文字内容匹配。
根据本公开的实施例,获取文本的文字内容,以确定上述文本对应的文本分类信息包括:获取上述文本的正文;对上述正文进行分析,得到上述正文的一个或多个主题;对上述一个或多个主题进行分类;以及根据上述一个或多个主题的分类结果,确定上述文本对应的文本分类信息。
根据本公开的实施例,上述配图所属的类别包括多个,上述文本所属的类别也包括多个,计算上述配图分类信息与上述文本分类信息的第一相似度包括:确定上述配图属于每个类别的概率,其中,上述配图属于每个类别的概率用于表征上述配图属于每个类别的可能性的大小;确定上述文本属于每个类别的概率;以及根据上述配图属于每个类别的概率与上述文本属于每个类别的概率,计算上述第一相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711391271.4/2.html,转载请声明来源钻瓜专利网。