[发明专利]用于聚类句子的方法和装置在审
申请号: | 201910255951.6 | 申请日: | 2019-04-01 |
公开(公告)号: | CN111858916A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 黄强;甘露;卜建辉;刘剑;吴伟佳;谢炜坚 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 句子 方法 装置 | ||
本申请实施例公开了用于聚类句子的方法和装置。该方法的一具体实施方式包括:将待聚类句子集合中的每个句子对应的语义向量组成的集合确定为语义向量集合;对于语义向量集合中的每个语义向量,执行以下密度计算操作;对于语义向量集合中的每个语义向量,执行以下聚类划分操作;对于所建立的每个聚类,将划分到该聚类中的各个语义向量中密度最大的语义向量确定为该聚类的聚类中心语义向量;将所确定的各聚类中心语义向量对应的待聚类句子确定为聚类中心句子集合。该实施方式提高了句子聚类的准确率。
技术领域
本申请实施例涉及计算机技术领域,具体涉用于聚类句子的方法和装置。
背景技术
句子聚类,就是把多个句子按照语义划分到不同类别。目前,有很多场合会用到句子聚类。例如,在自助对话系统中,可以对用户问题句子进行聚类,分析出用户总体的意图分布,并提炼出相对应的标准问题句子和答案句子用于线上应答。
现有的句子聚类算法,通常会分为两种,一种会依赖预先设置好的中心数和预先选择好的初始化中心,如k-means,这类型的算法会严重依赖初始化,显得不够灵活。另一种则是基于密度的聚类算法,如DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,具有噪声的基于密度的聚类方法),而这类算法会有超参数多,计算时间长等缺点。
发明内容
本申请实施例提出了用于聚类句子的方法和装置。
第一方面,本申请实施例提供了一种用于聚类句子的方法,该方法包括:将待聚类句子集合中的每个句子对应的语义向量组成的集合确定为语义向量集合;对于语义向量集合中的每个语义向量,执行以下密度计算操作:确定该语义向量的近邻语义向量集合,其中,该语义向量的近邻语义向量集合是由语义向量集合中除该语义向量之外的各个语义向量中与该语义向量的距离最近的预设数目个语义向量组成的;以及基于该语义向量的近邻语义向量集合中各近邻语义向量与该语义向量之间的距离确定该语义向量的密度;对于语义向量集合中的每个语义向量,执行以下聚类划分操作:确定最大密度语义向量的密度是否大于该语义向量的密度,其中,最大密度语义向量是该语义向量的近邻语义向量集合中密度最大的近邻语义向量;响应于确定大于,将该语义向量划分到最大密度语义向量所属的聚类;响应于确定不大于,新建聚类,以及将该语义向量划分到所新建的聚类;对于所建立的每个聚类,将划分到该聚类中的各个语义向量中密度最大的语义向量确定为该聚类的聚类中心语义向量;将所确定的各聚类中心语义向量对应的待聚类句子确定为聚类中心句子集合。
在一些实施例中,在对于语义向量集合中的每个语义向量,执行以下聚类划分操作之前,该方法还包括:将语义向量集合中各语义向量按照密度从大到小的顺序排序。
在一些实施例中,基于该语义向量的近邻语义向量集合中各近邻语义向量与该语义向量之间的距离确定该语义向量的密度,包括:将该语义向量的近邻语义向量集合中各近邻语义向量与该语义向量之间的距离均值的倒数确定为该语义向量的密度。
在一些实施例中,基于该语义向量的近邻语义向量集合中各近邻语义向量与该语义向量之间的距离确定该语义向量的密度,包括:将该语义向量的近邻语义向量集合中各近邻语义向量与该语义向量之间的距离的倒数的均值确定为该语义向量的密度。
在一些实施例中,该方法还包括:输出聚类中心句子集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910255951.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:现场监控式云处理平台
- 下一篇:PRP创面生肌膏