[发明专利]面向文本的数字取证分析方法、装置和计算机可读介质有效
申请号: | 201810685660.6 | 申请日: | 2018-06-27 |
公开(公告)号: | CN108875050B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 何泾沙;黄娜;朱娜斐;刘公政;轩兴刚;泽维迪阿贝 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 魏彦 |
地址: | 100000 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 文本 数字 取证 分析 方法 装置 计算机 可读 介质 | ||
根据本发明实施例提供了一种面向文本的数字取证分析方法、装置和计算机可读介质,包括:对待取证文本的文本内容进行预处理,得到多个主干词;基于训练好的文档主题生成LDA模型获取主干词中的特征词,得到多个特征词,并基于多个特征词确定特征词向量;计算特征词向量和预设的敏感词向量之间的语义相似度,并基于语义相似度得到语义相似度最大值向量;基于语义相似度最大值向量确定待取证文本是否为取证目标。本发明解决了现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题,从而实现了节省人工成本,提高对文本内容的取证效率的技术效果。
技术领域
本发明涉及数字取证技术领域,尤其是涉及一种面向文本的数字取证分析方法、装置和计算机可读介质。
背景技术
近年来计算机技术飞速发展,各种各样的电子设备出现在人们的生活和工作中,如计算机、平板电脑、智能手机、嵌入式终端等,这些“带脑子”的设备中包含很多用户数据,成为数字取证重要的调查取证来源。文本数据是一种最基本的电子数据存在形式,除了文本文件、表格文件等简单的文本数据,许多应用程序中所包含的用户数据也是以文本的形式存在。比如在社交应用和即时通讯应用中,最重要的数据就是用户所发布的公共言论以及和联系人的通讯内容,这些用户数据通常都是以文本的形式存在。
现有的数字取证研究都是以获取数据为目的,研究如何突破用户权限、破解密码、数据库结构等,但是没有对文本内容的取证分析方法。在已经进入大数据时代的今天,每个人所拥有的电子数据量都非常大,而且呈现不断增长的趋势,而电子证据的取证分析和证据定性具有时效性,传统的人工分析远远不能满足取证需求,不但影响案件调查审理的效率,还可能会造成更大的社会或个人损失。
针对以上问题,还未提出有效解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种面向文本的数字取证分析方法、装置和计算机可读介质,以解决现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题。
根据本发明实施例提供了一种数字取证方法,所述方法包括:对待取证文本的文本内容进行预处理,得到多个主干词;其中,所述主干词为所述待取证文本中除标点符号和停用词以外的词,所述停用词包括以下至少之一:形容词,副词,代词;基于训练好的文档主题生成LDA模型获取所述主干词中的特征词,得到多个特征词,并基于多个所述特征词确定特征词向量;计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量;基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标。
进一步地,计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量包括:计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度,得到多个语义相似度值,其中,i依次取1至m,m为所述特征词向量中的特征词数量,k依次取1至j,j为所述敏感词向量中的敏感词数量;在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值,得到多个最大语义相似度值;将所述多个最大语义相似度值确定为所述最大语义相似度值向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810685660.6/2.html,转载请声明来源钻瓜专利网。