[发明专利]一种领域问答系统咨询的快速可增量聚类方法在审
申请号: | 201510187231.2 | 申请日: | 2015-04-20 |
公开(公告)号: | CN104778256A | 公开(公告)日: | 2015-07-15 |
发明(设计)人: | 马健;刘亮亮;吴健康;李洪梅 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 许丹丹 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 问答 系统 咨询 快速 增量 方法 | ||
技术领域
本发明涉及人工智能计算机领域中的数据挖掘和自然语言处理,特别涉及领域问答系统等文本客服咨询系统的用户咨询聚类方法。
背景技术
在领域问答系统等大量的自然语言应用中,有一个基本的而又共同的问题:在系统中出现大量的用户咨询历史,用户咨询由一个由短文本构成(以下简称短文本语料集或用户咨询语料集),如何将其中的咨询历史按照某种相似度聚集成不同的类,并且将聚类结果用户领域问答系统中,通过聚类结果来识别和帮助问答系统理解用户的咨询。
在搜索引擎领域、百度知道、领域问答系统、智能客服等中,有大量的用户咨询问题历史,如何对用户的搜索历史、咨询历史进行分类,通过对用户咨询的聚类,可以提高自动问答系统、智能客服系统的效率和准确率。
传统的聚类算法非常多,主要包括层次聚类算法、K-means算法等。但随着大数据时代的到来,任何一个领域的数据呈数量级的增长,因此目前聚类存在以下几个问题:
1)数据量大,直接利用聚类,算法效率很低,无法满足应用的需要;
2)用户咨询问题中都大量的语义噪声,这些噪声是导致聚类效果不好的一个主要的原因;
3)汉语句子语义相似度计算是决定聚类结果好坏的一个最主要的问题,而汉语中同词不同义、不同词同义、词义与领域相关性等都是决定汉语句子相似度计算的问题;
4)数据中有大量的相同的咨询,如何让这些相同的咨询不重复进行聚类;
5)由于聚类算法的效率比较低,因此如果对所有数据进行聚类,需要花大量的时间,这无法满足应用的要求;
针对上述几个问题,本发明提出并且实现了一种多离线聚类与在线聚类相结合的聚类方法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供了一种领域问答系统咨询的快速可增量聚类方法。
技术方案:
为达到上述目的,本发明提供的一种领域问答系统咨询的快速可增量聚类方法,该方法基于将离线聚类和在线聚类相结合的聚类框架,包括以下步骤:
1)通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征融合的相似度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
2)利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并,生成聚类结果。
优选的,所述的步骤1)包括以下步骤:
步骤11)咨询语义预处理,包括:
(1)删除句子中的特殊符号;
(2)进行大小写转换,将句子中的英文统一转化成小写;
(3)通过建立语义无关词的双数组Trie树的结构,识别并删除句子中的语义无关词;
(4)利用词类词典建立双数组Trie树的词典结构,通过向后最大匹配来匹配句子中的词,用词类名称来替换所匹配到的属于该词类的词条;
步骤12)咨询的特征向量的提取:利用包括TF-IDF特征、词性特征和词类特征的特征进行特征提取,形成词的特征向量;
步骤13)咨询去重:选取咨询数据中特征向量相同的句子中的一条参与聚类,并建立重复咨询索引;
步骤14)咨询相似度图的建立:给定两条咨询S1和S2,通过多特征的相似度融合算法计算咨询间的相似度Sim(S1,S2),建立相似度图SimGraph;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
步骤15)利用以下聚类算法对相似度图SimGraph进行聚类:
(1)初始化将相似图中的所有顶点都各自作为一个类,对N条咨询共有N个类cluster(i);
(2)遍历相似度图SimGraph,查找图中相似度最大的两个类cluster(i)和cluster(j),并且该相似度要大于聚类的阈值β;如果找不到则聚类终止;
(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k);
(4)更新相似度图,将类cluster(i)和类cluster(j)删除,同时在图中加入新类cluster(k),同时定义更新新类cluster(k)与图中各旧类cluster(m)的相似度为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510187231.2/2.html,转载请声明来源钻瓜专利网。