[发明专利]一种文本数据检索方法及装置有效
申请号: | 202010370839.X | 申请日: | 2020-05-06 |
公开(公告)号: | CN111259118B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 侯凯;李耀东;金波 | 申请(专利权)人: | 广东电网有限责任公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 510600 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 数据 检索 方法 装置 | ||
1.一种文本数据检索方法,其特征在于,包括:
S1:将从预置文本数据中提取到的特征向量构建成向量集合,所述特征向量包括第一关键词和第一特征权重;
S2:根据预置热点向量与所述特征向量之间的第一相似度对所述向量集合进行分类,得到特征向量类别库,所述预置热点向量为具有时效性的标准向量;
S3:根据预置检索热点构建检索向量,所述检索向量包括第二关键词和第二特征权重;
S4:在所述特征向量类别库中随机选取一个类别,计算所述类别中每个所述特征向量与所述检索向量之间的第二相似度,得到最大相似度;
S5:在所述最大相似度大于或等于阈值时,如果所述最大相似度对应的所述特征向量的所述第一特征权重大于所述第二特征权重,则将所述第一特征权重代替所述第二特征权重,重复步骤S4,直至得到唯一的检索特征向量。
2.根据权利要求1所述的文本数据检索方法,其特征在于,步骤S1,之前还包括:
采集杂乱的原始文本数据;
对所述原始文本数据进行数据清洗操作,得到所述预置文本数据。
3.根据权利要求1所述的文本数据检索方法,其特征在于,步骤S2,包括:
构建多个所述预置热点向量,所述预置热点向量包括第三关键词和第三特征权重,所述预置热点向量为具有时效性的标准向量;
根据预置相似度公式计算所述预置热点向量与每个所述特征向量之间的所述第一相似度;
将每个所述第一相似度超过相似阈值的所述特征向量划分到所述预置热点向量对应的热点类别中;
将分类完成的所述特征向量构建成所述特征向量类别库。
4.根据权利要求1所述的文本数据检索方法,其特征在于,步骤S1,之后还包括:
通过预置公式计算所述第一关键词的词频率,所述预置公式为:
其中,Li为所述词频率,TF为词频,Ctotal为词总数;
根据所述词频率和预置词性权重计算更新权重;
采用所述更新权重调整所述第一特征权重,得到优化后的所述特征向量。
5.根据权利要求1所述的文本数据检索方法,其特征在于,步骤S5,还包括:
在所述最大相似度小于阈值时,则判定为非目标信息,跳过本次检索。
6.一种文本数据检索装置,其特征在于,包括:
第一构建模块,用于将从预置文本数据中提取到的特征向量构建成向量集合,所述特征向量包括第一关键词和第一特征权重;
分类模块,用于根据预置热点向量与所述特征向量之间的第一相似度对所述向量集合进行分类,得到特征向量类别库,所述预置热点向量为具有时效性的标准向量;
第二构建模块,用于根据预置检索热点构建检索向量,所述检索向量包括第二关键词和第二特征权重;
计算模块,用于在所述特征向量类别库中随机选取一个类别,计算所述类别中每个所述特征向量与所述检索向量之间的第二相似度,得到最大相似度;
迭代模块,用于在所述最大相似度大于或等于阈值时,如果所述最大相似度对应的所述特征向量的所述第一特征权重大于所述第二特征权重,则将所述第一特征权重代替所述第二特征权重,触发所述计算模块,直至得到唯一的检索特征向量。
7.根据权利要求6中所述的文本数据检索装置,其特征在于,还包括:
预处理模块,用于采集杂乱的原始文本数据;
对所述原始文本数据进行数据清洗操作,得到所述预置文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司,未经广东电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010370839.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置