[发明专利]一种基于关联规则挖掘的档案处理方法有效

申请号：	202110684881.3	申请日：	2021-06-21
公开（公告）号：	CN113515597B	公开（公告）日：	2022-11-01
发明（设计）人：	李帅	申请（专利权）人：	中盾创新数字科技（北京）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06K9/62
代理公司：	北京嘉途睿知识产权代理事务所(普通合伙) 11793	代理人：	彭成
地址：	102101 北京市延***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于关联规则挖掘档案处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于关联规则挖掘的档案处理方法，其特征在于，包括：

收集待追踪处理的待追踪档案，并对所述待追踪档案的内容进行要素提取，得到所述待追踪档案对应的多个维度的要素；

基于线性回归后的云模型序列对所述待追踪档案和记录档案进行相应的相似性度量，自适应地将一个时间序列线性回归表示为若干个正态云；

运用基于期望曲线的云模型相似性度量算法来计算云模型档案维度属性之间的相似度；

依照所述待追踪档案与存储的所述记录档案之间的内容关联性，判断存储的所述记录档案是否为所述待追踪档案的父档案；

采用基于论域信息线性回归的模糊时间序列预测方法对获取父子档案关系的档案进行未来档案的预测；

在标准数据集进行聚类测试，验证所提出的时间序列信息线性回归方法和时间序列相似性度量方法对于待追踪档案与存储的所述记录档案之间的有效性；

所述在标准数据集进行聚类测试，验证所提出的时间序列信息线性回归方法和时间序列相似性度量方法对于待追踪档案与存储的所述记录档案之间的有效性，还包括：

输入单尺度分类变量数据模型，识别所有重复对象；

业务数据预处理，包括从数据集合中找出所有的高频项集合，输入单尺度分类变量数据模型，识别所有重复对象；

根据业务需求，确定最小支持度与最小可信度参数阈值，删除初始数据模型中的所有重复对象，获取分类变量非重复数据聚类结果类；

用数据挖掘算法发现业务数据中的关联规则，分配各重复对象至结果类，输出：单尺度分类变量数据模型结果类及尺度特征，获取管理决策所需的业务规律；

所述基于线性回归后的云模型序列对所述待追踪档案进行相应的相似性度量，自适应地将一个时间序列线性回归表示为若干个正态云之前，还包括：

依照每个维度的要素的权重，从所述多个维度的要素中选取N维度的要素；

依照选取的N维度的要素，确定所述N维度的要素中每个维度的要素对应的要素向量；

依照所述N维度的要素中每个维度的要素对应的要素向量和预定区块链中存储的记录档案对应的每个维度的要素的要素向量，通过预定的关联度算法，确定所述N维度的要素中每个维度的要素与所述记录档案中的相应维度的要素的关联度，所述关联度算法包括k近邻kNN算法、欧拉距离算法或余弦距离算法；

如果所述待追踪档案中与所述记录档案中的相应维度的要素的关联度大于预定关联度阈值的维度的数量大于预定数量阈值，则判定存储的所述记录档案与所述待追踪档案之间的内容关联性大于预定的阈值；

所述采用基于论域信息线性回归的模糊时间序列预测方法对获取父子档案关系的档案进行未来档案的预测，还包括：

基于模糊C均值聚类对获取的父子档案关系的档案的时间序列论域初始划分；基于模糊信息线性回归的时间序列论域优化，获取时间序列；

基于论域信息线性回归的时间序列预测未来档案；

所述运用基于期望曲线的云模型相似性度量算法来计算云模型档案维度属性之间的相似度，还包括：

获取内容关联性大于预定的阈值的初筛记录档案与所述待追踪档案；

基于波动点的时间序列信息线性回归对所述初筛记录档案与所述待追踪档案进行信息线性回归，包括档案维度属性划分和档案维度属性描述，将时间序列划分成若干个小的子序列，每个子序列称为一个档案维度属性；档案维度属性描述是在划分得到的档案维度属性上，构建描述方法对档案维度属性进行有效的特征描述；

原始时间序列转化为度量时间序列，获取度量时间序列之间的相似度；

对所述原始时间序列进行操作识别出波动点，进而通过波动点将原始时间序列划分为若干个子序列，每个子序列被称为一个档案维度属性；

根据极值点的定义对其进行操作，识别出其极值点，在得到极值点后，对其进行属性标注，其中极大值点的属性为1，极小值点的属性为-1；

其次，通过设定阈值对极值点进行筛选；

采用阈值集合的方法，通过对阈值集合中的每个阈值进行迭代筛选，最终获得波动点；

对于阈值筛选后的得到的点为备选波动点，备选波动点继承了极值点的属性；

对于时间序列的极值点序列E＝{e₁，e₂，…e_m}，给定阈值集合ε＝{ε₁，ε₂，…ε_q}，若序列E中的相邻两点e_j-1，e_j存在关系|e_j-1-e_j|ε_k，则称点e_j为备选波动点，其中，j＝1，2，3…，m，ε_k∈ε为阈值集合中的某一阈值；

同时，一条时间序列的起始节点也被认为是备选波动点；

输入:时间序列X＝{x₁，x₂，…x_n}；

输出:波动点序列F＝{f₁，f₂，…f_n}；

按照时间顺序排列构成极值点序列E＝{e₁，e₂，…e_m}，并标注极值点的属性，极大值点的属性为1，极小值点的属性为-1；

设置阈值集合ε＝{ε₁，ε₂，…ε_q}来筛选极值点，对于阈值集合中的每个阈值按照从小到大的顺序执行:

对于极值点序列E＝{e₁，e₂，…e_m}判断关系|e_j-1-e_j|ε_k，满足则认为是备选波动点，遍历完成后，按照时间顺序排列构成备选波动点序列C＝{C₁，C₂，…C_P}；

对于备选波动点序列C＝{C₁，C₂，…C_P}判断关系满足则认为是波动点，不满足则进行相应操作，遍历完成后，按照时间顺序排列构成波动点序列F＝{f₁，f₂，…f_n}；

代表点c_i的属性，表示点c_i和点c_i-1的属性相反，即一个点为极大值点，另一个点为极小值点。

2.如权利要求1所述的一种基于关联规则挖掘的档案处理方法，其特征在于，所述依照所述待追踪档案与存储的所述记录档案之间的内容关联性，判断存储的所述记录档案是否为所述待追踪档案的父档案，还包括：

挖掘外露追踪关系档案间的时间特征，首先确定待追踪档案和记录档案的生命周期关系，一般分为周期包含、周期交叉和周期并列；对比待追踪档案和记录档案的创建时间和结束时间，得到时间特征；

挖掘人员特征，挖掘待追踪档案和记录档案的相关负责人的联系，包括同时参与待追踪档案和记录档案对应的活动的人员；

挖掘已链接记录特征，外露追踪关系档案间存在已链接的记录，挖掘待关联档案和已链接记录之间的关系，提取特征；

其中，待追踪档案a_i与记录档案b_i，L_p为集合中时间与记录档案b_i相隔最近的档案，计算记录档案b_i与L_p的文件重合度N_f＝overlap(document(b_i)，document(L_p))、档案关联性N_t＝sim(des(b_i)，des(L_p))；

其中计算文件重合度的公式为：

overlap(document(a_i)，document(b_i))＝(document(a_i)∩document(b_i))/(document(a_i)∪document(b_i))

document(a_i)为待追踪档案_i涉及到的文件集合，document(b_i)为记录档案_i涉及到的文件集合，document(a_i)∩document(b_i)为两个集合的交集，document(a_i)∪document(b_i)为两个集合的并集；

L_n为集合中时间与记录档案b_i相隔最近的档案，计算记录档案b_i与L_n的文件重合度N_f＝overlap(document(b_i)，document(L_n))、档案关联性N_t＝sim(des(b_i)，des(L_n))；

挖掘待追踪档案和记录档案之间的结果标签，若待追踪档案a_i可以关联到记录档案b_i，则a_i和b_i之间存在追踪关系，为父子档案关系，否则不是父子档案关系。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中盾创新数字科技（北京）有限公司，未经中盾创新数字科技（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110684881.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于关联规则挖掘的档案处理方法有效

专利文献下载