[发明专利]基于Voronoi图的训练样本遮掩方法、装置及相关设备有效
申请号: | 202110556622.2 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113191158B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 王伟;黄勇其;于翠翠;张黔 | 申请(专利权)人: | 润联软件系统(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/36;G06F40/279;G06F16/35 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 武志峰 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 voronoi 训练 样本 遮掩 方法 装置 相关 设备 | ||
1.一种基于Voronoi图的训练样本遮掩方法,其特征在于,包括:
获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词,所述单词集合中的单词包含主题词和非主题词;
基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中,其中,所述Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词;
根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;
对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列;
所述基于所述单词集合和主题词集合的单词属性构建Voronoi图,包括:
根据所述单词集合中每个单词的TF-IDF值及余弦相似度,构建2-D平面;
将所述主题词集合中每个主题词映射到所述2-D平面,以每个主题词在所述2-D平面上对应的主题点构建所述Voronoi图;
基于所述单词集合与主题词集合的差集,得到非主题词集合;
计算所述非主题词集合中每一非主题词的词向量与所有主题点对应主题词词向量之间的距离,确定所述非主题词的最短距离主题点;
将所述非主题词映射到所述Voronoi图中,得到所述非主题词对应的非主题点,并将所述非主题点划分到对应最短距离主题点的网格中。
2.根据权利要求1所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述获取训练语料的单词集合和主题词集合,包括:
对所述训练语料进行分词处理,得到所述训练语料的单词集合;
对所述训练语料进行主题词提取,得到所述训练语料的主题词集合。
3.根据权利要求1所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述根据网格影响力所述Voronoi图中的网格进行排序,得到网格排序队列,包括:
按网格面积对所述Voronoi图中每个网格进行降序排序,得到网格面积队列;
获取所有主题词的词嵌入向量,根据所述词嵌入向量对所有主题词进行聚类,得到主题词簇;
根据所述主题词簇中每一主题词对应网格间的关系构建邻居关系矩阵,计算所述主题词簇中每一主题词相对所述邻居关系矩阵的贡献值,根据所述贡献值对所述主题词簇中的主题词进行降序排序,得到贡献排序队列;
根据每一网格在所述网格面积队列和贡献排序队列中的位序之和,对每一网格进行降序排序,得到网格排序队列。
4.根据权利要求3所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述按网格面积对所述Voronoi图中每个网格进行降序排序,得到网格面积队列,包括:
确定所述Voronoi图中每一网格的邻居网格,所述邻居网格包括直接邻居网格和间接邻居网格;
计算每一网格与对应的邻居网格之间的面积和;
根据所述面积和对所有网格进行降序排序,得到所述网格面积队列。
5.根据权利要求3所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述按网格面积对所述Voronoi图中每个网格进行降序排序,得到网格面积队列,包括:
确定所述Voronoi图中每一网格对应邻居网格内的节点数量,所述节点包括主题点和非主题点;
根据所述节点数量计算每一网格与对应的邻居网格之间的面积和;
根据所述面积和对所有网格进行降序排序,得到所述网格面积队列。
6.根据权利要求3所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述根据所述主题词簇中每一主题词对应网格间的关系构建邻居关系矩阵,包括:
获取所述主题词簇中每一主题词对应网格之间的网格关系,所述网格关系包括直接邻居关系、间接邻居关系和非邻居网格关系;
根据所述网格关系计算对应网格之间的关系值,其中,直接邻居关系的关系值为;间接邻居关系的关系值为,其中,,分别为两个网格对应主题词的词向量;非邻居网格关系的关系值为;
根据各网格之间的关系值构建邻居关系矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润联软件系统(深圳)有限公司,未经润联软件系统(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110556622.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种滋润收敛型深层清洁面膜粉
- 下一篇:一种放射治疗的临床肿瘤微创治疗设备