[发明专利]基于LDA模型的供电服务客户诉求识别方法在审

专利信息
申请号: 201810938775.1 申请日: 2018-08-17
公开(公告)号: CN109389418A 公开(公告)日: 2019-02-26
发明(设计)人: 卜晓阳;王宗伟;金鹏;赵郭燚;杨菁;刘鲲鹏;宫立华;朱龙珠 申请(专利权)人: 国家电网有限公司客户服务中心
主分类号: G06Q30/02 分类号: G06Q30/02;G06Q50/06;G06F17/27;G06K9/62
代理公司: 天津佳盟知识产权代理有限公司 12002 代理人: 李益书
地址: 300000 天*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 性能参数 文本 客户 测试样本 供电服务 训练样本 样本 文本预处理 模式识别 随机选择 文本分词 文本分类 文本数据 主题模型 主题生成 识别率 客服 自动化 量化 测试 挖掘 应用
【说明书】:

发明涉及模式识别的方法,具体涉及一种基于LDA模型的供电服务客户诉求识别方法。识别方法包括如下过程:文本预处理:将工单中的文本进行文本分词及文本量化,主要对文本长内容按照一定的规则进行切分;LDA主题生成:在全量样本中随机选择样本作为训练样本和测试样本,通过对训练样本的训练得到性能参数,再通过测试样本进行测试并得出识别率较高的性能参数,运用性能参数生成识别文本对工单中包含的客户诉求识别;自动化文本分类。本发明的优点在于:本方法提出利用LDA主题模型运用在全量客服工单中识别多个客户诉求,对文本数据充分挖掘并应用到实际工作中。

技术领域:

本发明涉及模式识别的方法,具体涉及一种基于LDA模型的供电服务客户诉求识别方法。

背景技术:

随着互联网+、大数据、云计算等信息技术飞速发展,大部分信息已经由纸质载体过渡到电子载体,而在这些信息中,大部分是非结构化或半结构化的文本信息。如何有效管理、挖掘、分析海量非结构化数据中蕴藏的信息,已成为大数据领域的重挑战。在非结构化数据中,文本数据占据重要地位。对于拥有大量文本数据的企业,如何有效的利用这部分数据资源决定着企业将来的发展。在电力行业客服中心的数据中,如何对工单数据进行处理,从而精准的识别工单中客户的诉求,甚至挖掘隐含诉求同时及时的发现新增突增诉求,这对提升服务的质量及客户的满意程度至关重要。

对文本数据中信息的挖掘常用的方法主要有两种,一种是早期的空间向量模型,数据基础是基于线性代数的几何变化,主要通过空间向量的形式表示非结构化和半结构化的数据,将文本数据表示为数学上可分析处理的形式,但存在一个问题就是文档特征向量具有惊人的维度,且占用内存较大,运行效率较低,如果使用此方法,需要进行合理的降维,但是由于每个文本特征向量维数不一致,一定程度上增加了数学处理的难度。另外一种是主题模型,依据的数学基础是概率统计的分布模型,主要是对文档内容的潜在模式的挖掘,且有良好的数学基础和灵活的拓展性,其中基于LDA模型对文本数据的挖掘更是得到广泛应用,此模型作为一种能够自动确定隐含主题的个数,拥有很好的主题适应能力。

在电力客户的工单中,每条工单的客户诉求并不全是单一诉求,精确识别每条工单的全部诉求尤为重要;在机器学习分类的文本分类技术中,机器学习分类算法只能识别单个诉求,无法满足一条工单含有多个诉求的情况,而主题模型中LDA模型对于文本中多个主题可以自动准确的识别,故本发明创新性的将LDA模型与工单数据进行结合,精准识别每条工单中客户的全部诉求。

发明内容:

本发明主要基于LDA模型对供电服务客户工单中的文本数据进行诉求识别,通过LDA模型对处理后的文本数据进行挖掘分析,识别工单中客户全部诉求,以便准确定位各客户的在用电方面的问题,从而使客服中心更加精确的进行服务,提升服务质量,进而提高客户的用电满意度。

工单中对于客户诉求的记录由客服人员加工转换记录,文本内容较长,没有很好的简化统一,存在同一工单有多个诉求的工单,且同一诉求的记录方式也有所差异。

基于LDA模型的供电服务客户诉求识别方法,包括文本预处理, LDA主题生成模型,文本自动分类。文本预处理阶段分两步,一步是文本分词,二是文本量化;依据LDA主题生成模型的过程中,通过训练文本的θ和p(θ),θ为主题向量机标识每列每个主题在文档中出现的概率,p(θ)为主题向量θ的Dirichlet分布,再得出两个控制参数α和β,α为p(θ)分布的参数,用于生成一个主题θ向量:β为各个主题对应的单词概率分布矩阵p(w|z),通过控制参数α和β就确定了主题模型,模型生成识别文本的算法如下:(1)选定一个主题向量θ,确定每个主题被选择的概率;(2)从主题向量θ中选择一个主题z,按主题z的词概率分布生成一个词,该词即为识别文本;对未识别的停电工单进行抽取并生成测试文本,通过人为对测试文本进行停电原因识别,对得出的控制参数α和β是否合理进行调试。由于需人为判定α和β是否合理,有一定局限性,在测试样本中,识别的主题可以概括95%以上的工单,并对全量工单依据分类算法模型及词库和所有主题实现自动化文本分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司客户服务中心,未经国家电网有限公司客户服务中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810938775.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top