[发明专利]一种基于DFA算法和贝叶斯分类器的用户投诉平台在审
| 申请号: | 202010092650.9 | 申请日: | 2020-02-14 |
| 公开(公告)号: | CN111311280A | 公开(公告)日: | 2020-06-19 |
| 发明(设计)人: | 徐旭东;刘昶;李晓文;刘鑫;顾恭 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F9/50;G06F11/16;G06F16/2455;G06F16/903;G06K9/62 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 dfa 算法 贝叶斯 分类 用户 投诉 平台 | ||
1.一种基于DFA算法和贝叶斯分类器的用户投诉平台,其特征在于,平台的整体架构由负载均衡层、业务逻辑层和数据访问层组成:
负载均衡层使用LVS在网络传输层进行请求转发,将请求转发到Nginx;使用Nginx作为网络应用层的负载均衡服务器,将请求转发到各个应用服务器;使用keepalived实现LVS双机热备,当主机发生故障时,及时切换到备机;
业务逻辑层对用户投诉平台的基本功能进行实现;使用Dubbo进行服务化,各个模块之间通过Dubbo协议对外暴露服务和调用外部服务;使用Zookeeper作为Dubbo的注册中心,负责服务地址的注册与查找;使用消息队列RocketMQ对相关业务进行异步处理,减少高并发情况下对平台造成的影响;
数据访问层使用本地缓存Guava Cache、分布式缓存Redis、关系型数据库Mysql相互配合的方式来减少高并发情况下对数据库的访问频率,为避免单实例的Redis出现宕机而影响平台运行的情况,使用Redis集群的方式保证高可用性。
2.根据权利要求1所述的一种基于DFA算法和贝叶斯分类器的用户投诉平台,其特征在于,业务逻辑层的功能模块包括用户模块、投诉模块、后台管理模块、垃圾内容识别模块和搜索模块。
3.根据权利要求1所述的一种基于DFA算法和贝叶斯分类器的用户投诉平台,其特征在于,为了防止在中英文混合环境下对中英文混合模式串的匹配出现错匹配和漏匹配的情况,需要对经典的多模式匹配算法DFA算法进行改进,改进方法如下:
步骤1:对所有模式串中的字符进行GBK编码,模式串中的英文被转换为一个0到255之间的字节,模式串中的中文被转换为两个0到255之间的字节;对编码后得到的数据构建Trie树;
步骤2:为根节点中0-255位置上所有等于NULL的指针分别创建新节点,并将这些指针指向对应的新节点,即在Trie树的第一层会有256个节点;对于这256个节点,将它们的失败指针全部指向根节点;此时,根节点不会发生失配的情况,根节点的失败指针无需赋值;
步骤3:对于根节点中128-255位置上所有指针指向的节点,如果节点中一个位置的指针等于NULL,则将这个指针指向根节点;如果节点中一个位置的指针不等于NULL,则将这个指针指向的节点的失败指针指向根节点;
步骤4:从根节点开始对Trie树进行层次遍历,依次求出各个节点的失败指针和各个节点中各个位置的指针,构建确定有穷自动机;
通过构建的确定有穷自动机在中英文混合环境下对中英文混合模式串的匹配不会出现错匹配和漏匹配的情况。
4.根据权利要求2所述的一种基于DFA算法和贝叶斯分类器的用户投诉平台,其特征在于,在垃圾内容识别模块使用改进的DFA算法和贝叶斯分类器相结合的识别方案:
步骤1:对测试数据进行预处理,以标点符号、空格、换行符为分割符,将一条完整的投诉分割为若干个句子,并且标识各个句子的类型是正常内容还是垃圾内容;
步骤2:使用伯努利模型和“结巴”中文分词组件对预处理的数据进行建模,得到贝叶斯分类器,提取其中垃圾内容的特征值作为模式串,并将这些模式串的近义词添加到模式串和贝叶斯分类器的特征值中;
步骤3:使用改进的DFA算法对用户和商家发表的内容进行多模式匹配,根据一定的策略,获取成功匹配的模式串所属的完整句子或半完整句子,使用“结巴”中文分词组件和贝叶斯分类器分别计算出这个句子属于正常内容和垃圾内容的概率;
随着用户投诉和商家处理投诉的不断增多,定期对最新数据实施步骤1和步骤2,完善贝叶斯分类器,提高垃圾内容识别的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010092650.9/1.html,转载请声明来源钻瓜专利网。





