[发明专利]一种文本数据检索方法及装置有效
| 申请号: | 202010370839.X | 申请日: | 2020-05-06 |
| 公开(公告)号: | CN111259118B | 公开(公告)日: | 2020-09-01 |
| 发明(设计)人: | 侯凯;李耀东;金波 | 申请(专利权)人: | 广东电网有限责任公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
| 地址: | 510600 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 数据 检索 方法 装置 | ||
本申请公开了一种文本数据检索方法及装置,方法包括:首先,将从预置文本数据中提取到的特征向量构建成向量集合,特征向量包括第一关键词和第一特征权重;然后,根据预置热点向量与特征向量之间的第一相似度对向量集合进行分类,得特征向量类别库;其次,根据预置检索热点构建检索向量,检索向量包括第二关键词和第二特征权重;接着,在特征向量类别库中随机选取一个类别,计算类别中每个特征向量与检索向量之间的第二相似度,得最大相似度;最后,根据预置条件采用第一特征权重代替第二特征权重,并迭代检索,得检索特征向量。解决了检索效果较差,无法高效满足实际应用需求的技术问题。
技术领域
本申请涉及文本检索技术领域,尤其涉及一种文本数据检索方法及装置。
背景技术
近年来,互联网的迅猛发展,迎来了信息爆炸式增长的时代。随着日常生活逐步向互联网的全面转移,大数据时代已经成为必然。大数据作为全球互联网的前沿概念,主要包括两个特点:一是信息量急剧增加;二是个人可获得的信息量呈指数级增长。
人工智能是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。随着人工智能的发展,人工智能的也被应用到各个不同的领域中,处理各种以往计算机无法实现的问题。
文本数据,包括结构化和非结构化的,在企业IT系统中,譬如日志信息、业务财务销售管理等软件文本记录、客服投诉建议及邮件评论等都蕴含着大量的文本数据。由于文本数据天然的数据零散以及跨系统跨领域的特性,再加上数据量的急剧增加,导致现有的文本的特征提取和检索技术无法适应实际的应用需求。
发明内容
本申请提供了一种文本数据检索方法及装置,用于解决文本数据的杂乱无章和跨系统跨领域,以及数据量急剧增加导致检索效果较差,无法高效满足实际应用需求的技术问题。
有鉴于此,本申请第一方面提供了一种文本数据检索方法,包括:
S1:将从预置文本数据中提取到的特征向量构建成向量集合,所述特征向量包括第一关键词和第一特征权重;
S2:根据预置热点向量与所述特征向量之间的第一相似度对所述向量集合进行分类,得到特征向量类别库,所述预置热点向量为具有时效性的标准向量;
S3:根据预置检索热点构建检索向量,所述检索向量包括第二关键词和第二特征权重;
S4:在所述特征向量类别库中随机选取一个类别,计算所述类别中每个所述特征向量与所述检索向量之间的第二相似度,得到最大相似度;
S5:在所述最大相似度大于或等于阈值时,如果所述最大相似度对应的所述特征向量的所述第一特征权重大于所述第二特征权重,则将所述第一特征权重代替所述第二特征权重,重复步骤S4,直至得到唯一的检索特征向量。
优选地,步骤S1,之前还包括:
采集杂乱的原始文本数据;
对所述原始文本数据进行数据清洗操作,得到所述预置文本数据。
优选地,步骤S2,包括:
构建多个所述预置热点向量,所述预置热点向量包括第三关键词和第三特征权重,所述预置热点向量为具有时效性的标准向量;
根据预置相似度公式计算所述预置热点向量与每个所述特征向量之间的所述第一相似度;
将每个所述第一相似度超过相似阈值的所述特征向量划分到所述预置热点向量对应的热点类别中;
将分类完成的所述特征向量构建成所述特征向量类别库。
优选地,步骤S1,之后还包括:
通过预置公式计算所述第一关键词的词频率,所述预置公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司,未经广东电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010370839.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





