[发明专利]类簇的识别系统及方法在审
申请号: | 202010398000.7 | 申请日: | 2020-05-12 |
公开(公告)号: | CN111708880A | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 齐云飞;张杰;付骁弈 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王素燕;栗若木 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 系统 方法 | ||
1.一种类簇的识别系统,其特征在于,所述系统部署有实体检测服务模块、实体聚类服务模块、簇连接服务模块;
所述实体检测服务模块,设置为对待识别数据提取实体并确定所提取的每个实体各自的词向量;
所述实体聚类服务模块,设置为对所述实体的词向量进行聚类得到聚类结果;
所述簇连接服务模块,设置为根据所述聚类结果更新类簇。
2.根据权利要求1所述的系统,其特征在于,
所述实体检测服务模块、所述实体聚类服务模块、所述簇连接服务模块并行处理。
3.根据权利要求1所述的系统,其特征在于,
所述实体检测服务模块从实体检测消息队列读取待识别数据,利用实体聚类消息队列保存所确定的词向量;
所述实体聚类服务模块从所述实体聚类消息队列读取实体的词向量,利用簇连接消息队列保存聚类后得到的聚类结果;
所述簇连接服务模块从所述簇连接消息队列读取聚类结果,利用存储服务消息队列保存更新后的类簇。
4.根据权利要求3所述的系统,其特征在于,所述系统还包括预处理与提取数据服务模块、存储服务模块;
所述预处理与提取数据服务模块,设置为对每次读取的源数据进行预处理,并对预处理后的源数据进行数据抽取得到待识别数据并保存到所述实体检测消息队列;
所述存储服务模块,设置为从所述存储服务消息队列中读取更新后的类簇并保存到存储设备中。
5.根据权利要求1所述的系统,其特征在于,所述对待识别数据提取实体并确定所提取的每个实体各自的词向量,包括:
基于预设的实体抽取算法对所述待识别数据提取实体,并基于预设的词向量模型确定所提取的每个实体各自的词向量;
或者,将所述待识别数据输入预先训练好的实体抽取模型,输出得到提取的每个实体各自的词向量;
其中,所述实体抽取模型是基于实体抽取算法利用训练数据对神经网络进行训练得到的模型,该模型以待识别数据为输入,以该待识别数据抽取的实体的词向量为输出,该训练数据是指各自已标记提取的实体的词向量的多个待识别数据。
6.根据权利要求1所述的系统,其特征在于,所述对实体的词向量进行聚类得到聚类结果,包括:
基于预设的实体聚类算法对所述实体的词向量进行聚类得到聚类结果;
或者,将所述实体的词向量输入预先训练好的实体聚类模型,输出得到聚类结果;
其中,所述实体聚类模型是基于实体聚类算法利用训练数据进行训练得到的模型,该模型以实体的词向量为输入,以该实体的词向量的聚类结果为输出,该训练数据是指各自已标记聚类结果的多个实体的词向量。
7.根据权利要求1所述的识别方法,其特征在于,所述根据所述聚类结果更新类簇,包括:
对所述聚类结果中的每一个聚类分别进行如下操作:
利用预设的连接算法将该聚类与已保存的类簇进行连接更新该已保存的类簇;
或者,将读取的聚类结果与已保存的类簇输入预先训练好的连接模型,输出得到更新后的类簇;
其中,所述连接模型是基于连接算法利用训练数据进行训练得到的模型,该模型以聚类结果和已保存的类簇为输入,以更新后的类簇为输出,该训练数据是指各自已标记更新后的类簇的多个聚类结果和已保存的类簇。
8.根据权利要求4所述的系统,其特征在于,所述预处理与提取数据服务模块、所述实体检测服务模块、所述实体聚类服务模块、所述簇连接服务模块、所述存储服务模块部署在容器编排工具,每一个服务对应部署一个或者多个容器。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括流量检测模块;
所述流量检测模块,设置为根据各自待处理的数据量大小调整所述预处理与提取数据服务、所述实体检测服务、所述实体聚类服务、所述簇连接服务、所述存储服务服务中每个服务所部署的容器数量。
10.一种类簇的识别方法,应用于如权利要求1-9中任一项所述的系统,包括:
实体检测服务模块对待识别数据提取实体并确定所提取的每个实体各自的词向量;
实体聚类服务模块对实体的词向量进行聚类得到聚类结果;
簇连接服务模块根据所述聚类结果更新类簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010398000.7/1.html,转载请声明来源钻瓜专利网。