[发明专利]一种基于聚类算法的无监督学习多点匹配方法在审
申请号: | 202010470688.5 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111737460A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 陈明东;黄越 | 申请(专利权)人: | 思派健康产业投资有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国强 |
地址: | 510700 广东省广州市黄*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算法 监督 学习 多点 匹配 方法 | ||
1.一种基于聚类算法的无监督学习多点匹配方法,其特征在于:包括如下步骤,
S1、对短文本库进行预处理,以获取映射关系为短文本-短文本的分词-分词所包含的字的第一类映射链条,并根据第一类映射链条获取映射关系为字-分词-短文本的第二类映射链条;
S2、输入待匹配文本,将待匹配文本打散为单个字,利用第二类映射链条将单个字映射到分词中,并将分词映射到短文本中,根据各个字在待匹配文本中的位置,矢量描述每一个短文本对待匹配文本的引用关系,以获取短文本库的引用矩阵;
S3、对引用矩阵进行聚类分析,对短文本库中的短文本进行区域划分,并对每一类中包含的短文本与划分的短文本区域进行匹配打分,选取最佳匹配短文本组成目标匹配集作为最后的匹配结果。
2.根据权利要求1所述的基于聚类算法的无监督学习多点匹配方法,其特征在于:步骤S1具体为,对短文本库中的每一个短文本进行分词处理,获取第一类映射链条,所述第一类映射链条的映射关系即为短文本-短文本的分词-分词所包含的字;对所述第一类映射链条进行反转,获取第二类映射链条,所述第二类映射链条的映射关系即为字-分词-短文本;所述第一类映射链条正向映射,第二类映射链条为反向映射。
3.根据权利要求2所述的基于聚类算法的无监督学习多点匹配方法,其特征在于:在第二类映射链条中,每一级映射都是一对多的映射关系,即一个字可以出现在不同的分词中,一个分词可以出现在不同的短文本中。
4.根据权利要求3所述的基于聚类算法的无监督学习多点匹配方法,其特征在于:步骤S2中,根据各个字在待匹配文本中的位置,矢量描述每一个短文本对待匹配文本的引用关系,以获取短文本库的引用矩阵,具体为,依次对比待匹配文本中的字是否出现在短文本库中的第一个短文本中,若是,则将该字替换成“1”,否则,将该字替换成“0”,以生成针对第一个短文本的对应矩阵,依次判断短文本库中的各个短文本,生成多个对应矩阵,将各个对应矩阵按顺序拼接起来,组成短文本库的引用矩阵;所述引用矩阵的每一行对应一个短文本,引用矩阵的每一列对应待匹配文本中的一个位置,引用矩阵的所有列数等于待匹配文本的长度,引用矩阵行列的值对应着待匹配文本中该位置的字是否出现在行对应的短文本中。
5.根据权利要求4所述的基于聚类算法的无监督学习多点匹配方法,其特征在于:步骤S3具体为,对引用矩阵进行聚类分析,以实现对短文本库中的短文本进行区域划分,对每一类中包含的短文本与划分的短文本区域进行匹配打分,选取每类中最高得分的短文本作为该类的最佳匹配短文本,并记录其得分,并将所有类的最佳匹配短文本依次与设定阈值比较,若小于阈值则剔除该最佳匹配短文本,若否,则保留该最佳匹配短文本;并将所有保留的最佳匹配短文本组成目标匹配集进行最后的匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思派健康产业投资有限公司,未经思派健康产业投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010470688.5/1.html,转载请声明来源钻瓜专利网。