[发明专利]基于质量文本相似性的数据查询系统在审
申请号: | 201811294293.3 | 申请日: | 2018-11-01 |
公开(公告)号: | CN109241246A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 刘林;费廷伟;杜贝娜;牛志超;段正轩;王文超;付高生 | 申请(专利权)人: | 北京京航计算通讯研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 周恒 |
地址: | 100074 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据查询系统 余弦相似度 样本空间 匹配 文本 相似度匹配算法 数据处理技术 词频 矩阵 匹配数据库 准确度 查询条件 复杂数据 空间转移 模糊查询 数据匹配 算法特性 学习样本 运转效率 语义性 权重 数据库 统计 保证 | ||
本发明属于数据处理技术领域,具体涉及一种基于质量文本相似性的数据查询系统。本发明利用TF公式做词频权重统计;同时在相似度匹配算法中采用基于余弦相似度的方法,通过学习样本空间,得到空间转移矩阵,使得相同的样本空间更加紧密,不同的样本空间更加分散,从而快速、准确的匹配数据库的数据。与现有技术相比,本发明提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题,克服了传统sql语句无法解决复杂数据匹配的问题。同时,基于余弦相似度算法特性,也保证了其计算速度快、运转效率高的特点。
技术领域
本发明属于数据处理技术领域,具体涉及一种基于质量文本相似性的数据查询系统。
背景技术
在军工集团主数据查询中,一般采用传统的like或者where等sql语句查询匹配的结果,但是当数据库中收录的数据量大且复杂,同时要求相关相识度匹配大量数据或对数据做对比、校验时,传统的sql无法解决这个问题。而利用文本相似度方法可以有效的匹配所需数据,在处理中文文本相似性的过程中,中文分词是研究的基础的。中文分词方法包括基于词典的分词法、正向最大匹配法、双向匹配分词法等。在完成分词的基础上,做文本的相似性比对,常用的相似度匹配的算法包括汉明距离、Jaccard相似性系数、贝叶斯算法和曼哈顿距离等。汉明距离是通过比较向量每一位是否相同,若不同则汉明距离加1,这样得到汉明距离向量相似性越高,对应汉明距离越小;Jaccard相似性系数,主要用于计算符号度量或者布尔值度量的个体间的相识度,只能获得是否相同这个结果;余弦相似度用向量空间中的两个向量夹角的余弦值作为衡量两个个体之间的差异的大小,它更注重两个向量方向上的差异。
面对大量数据库特征文本,大多数相似性匹配算法都能满足简单的匹配需求,但都存在无法精确、快速的完成数据库数据的匹配的问题。其中基于贝叶斯算法无法在少数文本的情况下,构建联合概率分布估计概率;而基于SimHash算法速度快,但是相识性的准确度太低。而基于余弦相识度匹配算法,用相似度值作为训练样本,在处理数据库短文中,可以快速的、准确的获取数据库相似性数据。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种基于质量文本相似性的数据查询系统,用于军工集团主数据查询,能够智能化、快速匹配到准确度高的数据库短文本数据、符合预期的查询、对比和校验结果。
(二)技术方案
为解决上述技术问题,本发明提供一种基于质量文本相似性的数据查询系统,其包括:
文本读入模块,其用于读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;
分词处理模块,其用于对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;
停用词去除模块,其用于对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;
词频权重获取模块,其用于根据TF—IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;
权重向量空间建立模块,其用于根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;
余弦值计算模块,其用于将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京航计算通讯研究所,未经北京京航计算通讯研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811294293.3/2.html,转载请声明来源钻瓜专利网。