[发明专利]信息处理方法、装置、终端及存储介质有效
| 申请号: | 201910600951.5 | 申请日: | 2019-07-04 |
| 公开(公告)号: | CN110442765B | 公开(公告)日: | 2022-03-11 |
| 发明(设计)人: | 朱巍伟 | 申请(专利权)人: | 卓尔智联(武汉)研究院有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/36;G06F40/289;G06F40/216;G06F40/242;G06F40/247 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 李昂;张颖玲 |
| 地址: | 432200 湖北省武汉市黄陂区盘龙城经*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息处理 方法 装置 终端 存储 介质 | ||
本发明公开了一种信息处理方法、装置、终端及存储介质。其中,信息处理方法包括:爬取文本数据,对所述文本数据进行分词处理;根据分词处理的结果,对所述文本数据中的设定的关键词进行词频统计;利用知识图谱修正词频统计的结果,所述知识图谱基于所述文本数据构建;输出修正后的词频统计的结果。
技术领域
本发明属于数据处理技术领域,尤其涉及一种信息处理方法、装置、终端及存储介质。
背景技术
文本挖掘,是从文本数据中抽取有价值的信息的数据处理技术。随着互联网技术的发展,信息的增长速度飞快,信息碎片化现象严重,互联网中的海量信息构成了一个异常庞大的、且数据结构相异的、开放性分布式数据库,导致在采用相关技术进行文本挖掘时,挖掘出的信息噪声大,使得文本挖掘的准确率不高。
发明内容
有鉴于此,本发明实施例提供一种信息处理方法、装置、终端及存储介质,以至少解决相关技术在互联网中进行文本挖掘时准确率不高的问题。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种信息处理方法,包括:
爬取文本数据,对所述文本数据进行分词处理;
根据分词处理的结果,对所述文本数据中的设定的关键词进行词频统计;
利用知识图谱修正词频统计的结果,所述知识图谱基于所述文本数据构建;
输出修正后的词频统计的结果。
上述方案中,所述利用知识图谱修正词频统计的结果,包括:
根据词频统计的结果确定二元组集合,所述二元组集合中的每个二元组由同时出现在所述文本数据的任一文本中的两个关键词构成;
将所述二元组中的第一关键词输入至所述知识图谱进行检索;
确定所述检索结果中不包含所述二元组中的第二关键词;
在所述二元组集合中删除所述二元组。
上述方案中,在所述二元组集合中删除所述二元组之后,所述信息处理方法还包括:
接收到恢复指令,将删除的所述二元组重新添加至所述二元组集合,得到更新后的二元组集合;
根据更新后的二元组集合,对所述知识图谱进行更新。
上述方案中,所述根据更新后的二元组集合,对所述知识图谱进行更新,包括:
为删除的所述二元组中的两个关键词建立关联关系;
在所述知识图谱中添加所述关联关系。
上述方案中,所述根据分词处理的结果,对所述文本数据中的设定的关键词进行词频统计,包括:
根据分词处理的结果,生成二维矩阵,所述二维矩阵中,每一行对应一个关键词,每一列对应所述文本数据中的一个文本,每个元素用于表示元素所在行对应的关键词是否出现在元素所在列对应的文本中;
根据所述二维矩阵,对所述文本数据中的设定的关键词进行词频统计。
上述方案中,所述根据所述二维矩阵,对所述文本数据中的设定的关键词进行词频统计,包括:
确定所述二维矩阵的转置矩阵;
将所述二维矩阵与所述转置矩阵相乘,得到对称矩阵;
根据所述对称矩阵,确定每两个关键词对应的共现文本数量,所述共现文本数量为同时包含了对应的两个关键词的文本的数量。
上述方案中,所述输出修正后的词频统计的结果,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卓尔智联(武汉)研究院有限公司,未经卓尔智联(武汉)研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910600951.5/2.html,转载请声明来源钻瓜专利网。





