[发明专利]一种基于文本图谱的智能搜索引擎的检索方法在审
申请号: | 202110005543.2 | 申请日: | 2021-01-05 |
公开(公告)号: | CN113204696A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 王绪刚 | 申请(专利权)人: | 北京欧拉认知智能科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/332;G06F16/36 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 林聪源 |
地址: | 100086 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 图谱 智能 搜索引擎 检索 方法 | ||
本发明提供一种基于文本图谱的智能搜索引擎的检索方法,涉及计算机技术领域,包括获取数据信息存储至分布式系统集群中,并构建文本图谱;根据用户输入的搜索语句,建立节点查询语句;根据节点查询语句在文本图谱中匹配三元组;若匹配成功,则将匹配到的三元组中的实体作为搜索结果返回客户;若匹配不成功,则对搜索语句进行分词,获取检索词;利用余弦相似度公式计算分布式系统集群中与检索词相关性最高的实体并返回用户。本发明通过构建文本图谱,进一步根据搜索目标建立实体与关系的节点查询语句,进而根据节点查询语句在文本图谱中进行检索,能够准确快速的得到搜索目标。
技术领域
本发明涉及计算机技术领域,尤其是涉及一种基于文本图谱的智能搜索引擎的检索方法。
背景技术
随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越成为人们上网浏览时的重要工具。
目前,在进行目标搜索时,用户可以在百度、谷歌等搜索引擎或门户网站输入查询内容,搜索引擎或门户网站根据输入内容提取关键词进行相关信息的检索,将搜索结果展示在网页中,用户在网页中逐条筛选所需的信息;
这种根据关键词进行目标搜索的方法,获取的结果往往是零散化和碎片化的,精确度不高,缺少联系,还可能具有歧义性,最后需要在搜索结果中人为地甄别有用信息;并且在通过门户网站进行搜索时,由于门户网站(如论坛)中的信息比较杂乱,仅靠关键词得到的搜索结果不能体现搜索目标,搜索效率低。
发明内容
针对上述问题,本发明提供了一种基于文本图谱的智能搜索引擎的检索方法,通过构建文本图谱,进一步根据搜索目标建立实体与关系的节点查询语句,进而根据节点查询语句在文本图谱中进行检索,准确快速的得到搜索目标。
为实现上述目的,本发明提供了一种基于文本图谱的智能搜索引擎的检索方法,包括:
获取数据信息存储至分布式系统集群中,并构建文本图谱;
根据用户输入的搜索语句,建立节点查询语句;
根据所述节点查询语句在所述文本图谱中匹配三元组;
若匹配成功,则将匹配到的所述三元组中的实体作为搜索结果返回客户;
若匹配不成功,则对所述搜索语句进行分词,获取检索词;
利用余弦相似度公式计算所述分布式系统集群中与所述检索词相关性最高的实体并返回用户。
作为本发明的进一步改进,所述数据信息包括期刊、论文、专利、百科、词典信息,国家官网、企业官网信息以及各专业、职业信息。
作为本发明的进一步改进,所述构建文本图谱,包括:
从所述分布式系统集群中提取三元组;
根据三元组构建文本图谱;
将文本图谱保存至数据库中。
作为本发明的进一步改进,所述根据用户输入的搜索语句,建立节点查询语句,包括:
根据用户输入的搜索语句进行实体识别和关系解析;
根据得到的所述实体和关系建立节点查询语句。
作为本发明的进一步改进,所述余弦相似度公式为:
其中,
Ai表示搜索语句钟获取到检索词的分向量;
Bi表示分布式系统集群中实体的分向量;
n表示检索词及分布式系统集群中实体的分向量数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京欧拉认知智能科技有限公司,未经北京欧拉认知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110005543.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、数据处理装置以及存储介质
- 下一篇:离合器装置及混合动力模块