[发明专利]一种基于关联规则的文本推荐方法有效
申请号: | 202110400230.7 | 申请日: | 2021-04-14 |
公开(公告)号: | CN112989026B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 高英;李泰稷;陈吉祥 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/31 |
代理公司: | 重庆飞思明珠专利代理事务所(普通合伙) 50228 | 代理人: | 李宁 |
地址: | 510000*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 规则 文本 推荐 方法 | ||
1.一种基于关联规则的文本推荐方法,其特征在于,具体步骤为:
步骤一:从数据集中选择词项集构建FP树,并利用FP树挖掘关联规则构建关联规则库;
步骤二:当获取用户输入时,输入文本经过分词处理生成词项集,词项集与已有的关联规则进行匹配;
具体为,通过关联规则挖掘所生成的关联规则可存放于关联规则库中,用户输入的文本经过分词处理后生成的词项集输入到关联规则库进行逐一匹配,即,若关联规则的先导项集包含于用户输入生成的词项集中则匹配成功,并计算该关联规则后继的权重,关联规则的权重计算公式如下:
w=s*n (1)
其中,w表示该关联规则的后继的权重,s表示该关联规则的支持度,n表示该关联规则先导的长度,即词项集的元素个数;
由于关联规则数量较为庞大,存储关联规则所需的空间较大,且逐一匹配的时间效率较低,因此先将用户输入分词得到的词项集与步骤一中的项头表取交集,仅保留项头表与输入词项集的公共项,然后再建立相应的FP树;
通过这种方法建立的FP子树包含了用户输入所满足的所有关联规则,因此可以直接计算叶结点的权重来得到该用户输入可推理出的目标文本及其对应的权重,根据公式(1)计算所有关联规则的后继权重,并根据所有关联规则的后继权重,由此可得结点权重的计算公式为:
其中,s表示该结点的支持度,同关联规则的支持度,n表示该结点所在路径的前缀结点个数,不包括根结点,即根结点到该结点的路径长度减1,n同时代表了以该结点为关联规则后继时其先导的最大长度;
已知公式:
则公式(2)可记为:
W=s*n*2n-1
通过这种方法建立的FP子树包含了用户输入所满足的所有关联规则,因此可以直接计算叶结点的权重来得到该用户输入可推理出的目标文本及其对应的权重;
步骤三:匹配后有相同后继的关联规则进行加权求和得到所有规则后继及其权重,存在于同一目标文本的规则后继求和得到所有目标文本及其权重;
步骤四:输出预测结果。
2.根据权利要求1所述基于关联规则的文本推荐方法,其特征在于:所述步骤一中FP树即频繁模式树,由频繁项头表和项前缀树构成,项头表用于存储数据库中所有前件项及其支持度,该项在所有事务中出现的次数,表中的项按照支持度大小降序排序,项头表还包含每个项在前缀树中结点链表的表头指针,用于快速访问前缀树中所有包含相同项的结点,数据库的事务由推理规则的前件和后件,即词项集及其所对应的目标文本组成,增加了叶结点,表示该路径所有条件模式基所对应的推理后件;
在构建FP树时,首先扫描原始数据库并建立项头表;然后再次扫描数据库,将每个事务中前件的项按照支持度降序排序并添加到前缀树中,每个事务都将作为前缀树中的一条路径,其中中间结点为所述数据库的事务前件的项,叶结点为后件;每个结点的支持度表示该路径上同一位置相同结点重复出现的次数,数据库二次扫描完毕时FP树构建完成。
3.根据权利要求2所述基于关联规则的文本推荐方法,其特征在于:所述步骤一中FP树挖掘关联规则具体为,首先要从项头表的底部项依次向上挖掘,对于项头表对应于FP树的每一项都要找到它的条件模式基,条件模式基是以需要挖掘的结点作为叶子结点所对应的FP子树。
4.根据权利要求1所述基于关联规则的文本推荐方法,其特征在于:所述步骤二中分词处理具体为,将文本字符串的每个具有独立意义的单词作为语句的一个特征,每个词同时作为关联规则的一个项,因此每个文本字符串经过分词处理都可以生成一个项集,采用的分词算法基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用基于汉字成词能力的隐马尔可夫模型,使用维特比算法。
5.根据权利要求1所述基于关联规则的文本推荐方法,其特征在于:所述步骤三具体为,
词项集中每一项的权重计算公式为:
wi=∑Wj (5)
以上公式当且仅当词项集中第i项包含于第j个目标文本中时成立;
wi代表词项集第i项的权重,Wj代表第j个目标文本的权重,
最终推导出目标文本权重的计算公式如下:
其中,WT表示最终推荐出目标文本的权重,m表示该目标文本分词生成词项集的项的个数,wi表示包含于该目标文本词项集的项的权重,
算法最终以权重从大到小的顺序输出置信度最高的前k个目标文本,k的值可由实际需求确定,用户可以人为选择最合适的目标文本作为推荐结果,然后用户输入与其对应的目标文本将会添加到数据库中,以扩充已标记的数据记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110400230.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种采暖炉
- 下一篇:一种YG拉链头双向保险制锁及其生产工艺