[发明专利]一种搜索文本折叠处理系统及其方法在审
申请号: | 202011465449.7 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112464639A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 张校源 | 申请(专利权)人: | 上海爱数信息技术股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/279;G06F16/953;G06F16/9538;G06K9/00;G06K9/62 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 林君如 |
地址: | 201112 上海市闵行*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 文本 折叠 处理 系统 及其 方法 | ||
本发明涉及一种搜索文本折叠处理系统及其方法,该系统包括指纹创建模块、数据库和折叠模块,指纹创建模块与本地存储端连接,用于创建对应于本地存储端各文本的文档指纹;指纹创建模块与数据库连接,以将文档指纹及对应的文本存储于数据库中;折叠模块的输入端和输出端分别与数据库、搜索引擎端连接,数据库与搜索引擎端连接,数据库根据搜索引擎端的搜索指令,输出搜索文本及对应的文档指纹,折叠模块根据文档指纹,对搜索文本进行折叠处理,得到折叠文本数据,并将折叠文本数据传输给搜索引擎端,以展示于搜索页面上。与现有技术相比,本发明能够将相同或相似度高的搜索文本进行折叠处理,方便用户在同一页面上尽可能多地查看到不同的搜索文本。
技术领域
本发明涉及文本分析技术领域,尤其是涉及一种搜索文本折叠处理系统及其方法。
背景技术
目前用户从本地的搜索引擎端中获取搜索文本时,往往会存在很多相同或相似度较高的重复文本,使得用户不能全面快速获得所有搜索文本,必须进行多次页面下拉或翻页操作,才能查看到搜索的不同文本。
为此,现有技术通过对不同搜索文本进行相似度计算,以方便用户提前得知搜索文本之间是否存在相同或相似度较高的重复文本,目前大多采用编辑距离的计算、杰卡德系数计算、TF计算、word2vec等方法进行相似度计算,其中,编辑距离计算是指两个字符串之间有一个字符串转成另一个字符串所需要的最少编辑操作次数,编辑距离越大说明越是不同,编辑操作包括增加、替换、删除;杰卡德系数是指两个文本的交集除以并集得到的数值,数值越大说明越相似;TF或TF-IDF值是指对文本进行向量化,然后计算两个文本的余弦值,值越大说明两个文本越相似;word2vec则是指通过训练好的模型,将每个词转换成向量,再计算余弦值,值越大说明越相似。以上的方法只适用于少量的短文本相似度判断计算,当面对海量的长文本相似度判断计算时,上述方法的效率均较为低下。此外,尽管通过相似度计算能够使用户得知搜索文本之间是否相同或相似,但仍然需要用户进行多次页面下拉或翻页操作,才能进一步查看到更多的搜索文本。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种搜索文本折叠处理系统及其方法,能够将相同或相似度高的搜索文本进行折叠处理,从而方便用户在同一页面上尽可能多地查看到不同的搜索文本。
本发明的目的可以通过以下技术方案来实现:一种搜索文本折叠处理系统,包括指纹创建模块、数据库和折叠模块,所述指纹创建模块的输入端连接至本地存储端,用于创建对应于本地存储端各文本的文档指纹;
所述指纹创建模块的输出端与数据库连接,以将文档指纹及对应的文本存储于数据库中;
所述折叠模块的输入端与数据库连接,所述数据库与搜索引擎端连接,所述数据库根据搜索引擎端的搜索指令,输出相应的搜索文本及对应的文档指纹给折叠模块;
所述折叠模块的输出端与搜索引擎端连接,所述折叠模块用于根据文档指纹,对搜索文本进行折叠处理,得到折叠文本数据,并将折叠文本数据传输给搜索引擎端,以展示于搜索页面上。
进一步地,所述折叠模块包括依次连接的相似度计算单元以及折叠排序单元,所述相似度计算单元与数据库连接,用于根据文档指纹,计算得到搜索文本之间的相似度,以构建出相似度矩阵;
所述折叠排序单元与搜索引擎端连接,用于结合相似度矩阵以及预设的折叠阈值,按照搜索文本的传入顺序,将满足折叠条件的搜索文本进行折叠,得到折叠文本数据,并将折叠文本数据传输给搜索引擎端进行展示。
一种搜索文本折叠处理方法,包括以下步骤:
S1、指纹创建模块从本地存储端获取所有已存储文本,分别对各文本依次进行分词、哈希计算、加权、合并、降维以及位移计算处理,得到对应于各文本的文档指纹;
S2、指纹创建模块将文档指纹及对应的文本存储于数据库中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海爱数信息技术股份有限公司,未经上海爱数信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011465449.7/2.html,转载请声明来源钻瓜专利网。