[发明专利]信息处理方法、装置、终端及存储介质有效
| 申请号: | 201910600951.5 | 申请日: | 2019-07-04 |
| 公开(公告)号: | CN110442765B | 公开(公告)日: | 2022-03-11 |
| 发明(设计)人: | 朱巍伟 | 申请(专利权)人: | 卓尔智联(武汉)研究院有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/36;G06F40/289;G06F40/216;G06F40/242;G06F40/247 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 李昂;张颖玲 |
| 地址: | 432200 湖北省武汉市黄陂区盘龙城经*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息处理 方法 装置 终端 存储 介质 | ||
1.一种信息处理方法,其特征在于,包括:
爬取文本数据,对所述文本数据进行分词处理;
根据分词处理的结果,对所述文本数据中的设定的关键词进行词频统计;
利用知识图谱修正词频统计的结果,所述知识图谱基于所述文本数据构建;
输出修正后的词频统计的结果。
2.根据权利要求1所述的信息处理方法,其特征在于,所述利用知识图谱修正词频统计的结果,包括:
根据词频统计的结果确定二元组集合,所述二元组集合中的每个二元组由同时出现在所述文本数据的任一文本中的两个关键词构成;
将所述二元组中的第一关键词输入至所述知识图谱进行检索;
确定所述检索结果中不包含所述二元组中的第二关键词;
在所述二元组集合中删除所述二元组。
3.根据权利要求2所述的信息处理方法,其特征在于,在所述二元组集合中删除所述二元组之后,所述信息处理方法还包括:
接收到恢复指令,将删除的所述二元组重新添加至所述二元组集合,得到更新后的二元组集合;
根据更新后的二元组集合,对所述知识图谱进行更新。
4.根据权利要求3所述的信息处理方法,其特征在于,所述根据更新后的二元组集合,对所述知识图谱进行更新,包括:
为删除的所述二元组中的两个关键词建立关联关系;
在所述知识图谱中添加所述关联关系。
5.根据权利要求1所述的信息处理方法,其特征在于,所述根据分词处理的结果,对所述文本数据中的设定的关键词进行词频统计,包括:
根据分词处理的结果,生成二维矩阵,所述二维矩阵中,每一行对应一个关键词,每一列对应所述文本数据中的一个文本,每个元素用于表示元素所在行对应的关键词是否出现在元素所在列对应的文本中;
根据所述二维矩阵,对所述文本数据中的设定的关键词进行词频统计。
6.根据权利要求5所述的信息处理方法,其特征在于,所述根据所述二维矩阵,对所述文本数据中的设定的关键词进行词频统计,包括:
确定所述二维矩阵的转置矩阵;
将所述二维矩阵与所述转置矩阵相乘,得到对称矩阵;
根据所述对称矩阵,确定每两个关键词对应的共现文本数量,所述共现文本数量为同时包含了对应的两个关键词的文本的数量。
7.如权利要求1所述的信息处理方法,其特征在于,所述输出修正后的词频统计的结果,包括:
根据修正后的词频统计的结果,生成并渲染关键词共现网络图,所述关键词共现网络图用于描述每两个关键词共同出现于同一文本中的频次。
8.一种信息处理装置,其特征在于,包括:
分词单元,用于爬取文本数据,对所述文本数据进行分词处理;
统计单元,用于根据分词处理的结果,对所述文本数据中的设定的关键词进行词频统计;
修正单元,用于利用知识图谱修正词频统计的结果,所述知识图谱基于所述文本数据构建;
输出单元,用于输出修正后的词频统计的结果。
9.一种终端,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述的信息处理方法的步骤。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的信息处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卓尔智联(武汉)研究院有限公司,未经卓尔智联(武汉)研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910600951.5/1.html,转载请声明来源钻瓜专利网。





