[发明专利]基于质量文本相似性的数据查询系统在审
申请号: | 201811294293.3 | 申请日: | 2018-11-01 |
公开(公告)号: | CN109241246A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 刘林;费廷伟;杜贝娜;牛志超;段正轩;王文超;付高生 | 申请(专利权)人: | 北京京航计算通讯研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 周恒 |
地址: | 100074 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据处理技术领域,具体涉及一种基于质量文本相似性的数据查询系统。本发明利用TF公式做词频权重统计;同时在相似度匹配算法中采用基于余弦相似度的方法,通过学习样本空间,得到空间转移矩阵,使得相同的样本空间更加紧密,不同的样本空间更加分散,从而快速、准确的匹配数据库的数据。与现有技术相比,本发明提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题,克服了传统sql语句无法解决复杂数据匹配的问题。同时,基于余弦相似度算法特性,也保证了其计算速度快、运转效率高的特点。 | ||
搜索关键词: | 数据查询系统 余弦相似度 样本空间 匹配 文本 相似度匹配算法 数据处理技术 词频 矩阵 匹配数据库 准确度 查询条件 复杂数据 空间转移 模糊查询 数据匹配 算法特性 学习样本 运转效率 语义性 权重 数据库 统计 保证 | ||
【主权项】:
1.一种基于质量文本相似性的数据查询系统,其特征在于,其包括:文本读入模块,其用于读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;分词处理模块,其用于对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;停用词去除模块,其用于对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;词频权重获取模块,其用于根据TF—IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;权重向量空间建立模块,其用于根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;余弦值计算模块,其用于将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;相似度判断模块,其用于根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京航计算通讯研究所,未经北京京航计算通讯研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811294293.3/,转载请声明来源钻瓜专利网。