[发明专利]标识转换方法、装置和计算机可读存储介质有效
| 申请号: | 201811375603.4 | 申请日: | 2018-11-19 |
| 公开(公告)号: | CN111199259B | 公开(公告)日: | 2023-06-20 |
| 发明(设计)人: | 杨震 | 申请(专利权)人: | 中国电信股份有限公司 |
| 主分类号: | G06K17/00 | 分类号: | G06K17/00 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李昊 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标识 转换 方法 装置 计算机 可读 存储 介质 | ||
1.一种标识转换方法,包括:
将文本库中的文本映射到向量空间、生成文本特征数据,其中,所述向量空间的特征项包括文本库中的词语,所述特征项的值为词语的权重;
采用预先训练的分类模型预测文本特征数据的类别,获得文本库中文本的类别;
对文本库中同一类别的文本进行主题分析,获得语义标识体系中同一类别下的主题分布信息和每个主题下的词语分布信息;
根据第一标识所属的第一标识体系的转换规则,获得第一标识中的关键词;
根据预先建立的语义标识体系,将所述第一标识转换为语义标识,包括:根据第一标识的类别下的主题分布信息和每个主题下的词语分布信息,确定第一标识中的每个关键词所属的主题词;以及,基于第一标识中的每个关键词所属的主题词构建语义标识,其中,第一标识对应的语义标识包括第一标识中的每个关键词所属的主题词,所述语义标识体系包括每个类别下的主题分布信息和每个主题下的词语分布信息,所述语义标识体系中的每个标识包括一个或多个标识字段,每个标识字段对应一个或多个主题词;
获得所述语义标识对应的第二标识,其中,所述第二标识属于第二标识体系;
建立第一标识和第二标识之间的映射关系。
2.根据权利要求1所述的标识转换方法,其中,所述获得所述语义标识对应的第二标识包括:
根据第二标识所属的第二标识体系的转换规则,获得第二标识中的关键词;
根据预先建立的语义标识体系,将所述第二标识转换为语义标识,其中,第二标识对应的语义标识包括第二标识中的每个关键词所属的主题词。
3.根据权利要求1所述的标识转换方法,还包括:
采用训练文本中的词语作为特征项构建向量空间,其中,每个特征项具有权重,每个训练文本具有预先标记的类别;
将训练文本映射到向量空间,生成训练数据;
采用训练数据和训练数据对应的预先标记的类别训练机器学习模型,获得分类模型。
4.根据权利要求3所述的标识转换方法,其中,所述训练文本为标准描述文本,所述标准描述文本包括物联网文本;
所述标识转换方法还包括:
对补充描述文本进行主题分析,构建包括所述补充描述文本中的主题的关键特征集,其中,所述补充描述文本包括互联网文本;
提高所述向量空间中属于关键特征集的特征项的权重。
5.根据权利要求4所述的标识转换方法,其中,所述对补充描述文本进行主题分析,构建包括所述补充描述文本中的主题的关键特征集包括:
对训练文本和补充描述文本进行主题分析,获得训练文本和补充描述文本中的主题和每个主题下的词语,以及训练文本和补充描述文本中每个词语的分布信息;
从标准描述文本中提取分类关键词;
采用补充描述文本中分布信息与所述分类关键词的分布信息的差距在预设程度内的词语、以及分类关键词构建关键特征集。
6.根据权利要求4所述的标识转换方法,还包括:
根据关键特征集中的词语所属的主题,将关键特征集中的词语添加到语义标识体系中的相应主题序列中,其中,所述主题序列表示一个或多个主题以及相应主题下的词语的关系集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811375603.4/1.html,转载请声明来源钻瓜专利网。





