[发明专利]用于语义搜索的设备和方法在审
申请号: | 201780069862.1 | 申请日: | 2017-11-08 |
公开(公告)号: | CN110023924A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 迈克尔·纳特雷尔 | 申请(专利权)人: | 德尼梅尔奥克提麦恩有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 梁丽超 |
地址: | 德国*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本文档 查询 内存器 计算机实现 关联 相似性度量 查询转换 处理组件 接收查询 存储 归一化 向量 数据库 输出装置 输入装置 文档数据 语义搜索 协调 存器 检索 保存 返回 | ||
1.一种计算机实现的用于比较文本文档的方法,包括以下步骤:
a)建立包括与多个第一文本文档相关联的第一文本文档数据(21)的数据库;并且
b)接收查询(41);并且
c)将所述查询(41)转换为第二文本文档数据(31);并且
d)将所述第二文本文档数据(31)与所述第一文本文档数据(21)进行比较并且计算所述第二文本文档数据(31)与所述第一文本文档数据(21)之间的至少一个相似性度量。
2.根据前述权利要求所述的方法,其中,所述第一文本文档数据(21)包括由包含在所述第一文本文档中的关键词和/或与所述关键词在语义上相关的词语生成的文档向量。(27)。
3.根据前述任意权利要求所述的方法,其中,所述查询(41)包括第二文本文档和/或识别与包含在已存储在所述内存器组件(20)内的所述第一文本文档数据(21)内的所述第二文本文档数据(31)相关联的第二文本文档的信息。
4.根据前述权利要求中任一项所述的方法,其中,将所述查询(41)转换为所述第二文本文档数据(31)包括协调所述查询(41)。
5.根据前述权利要求中任一项所述的方法,其中,将所述查询转换为所述第二文本文档数据(31)包括归一化所述查询(41)。
6.根据前述权利要求所述的方法,其中,归一化所述查询(41)包括从外部数据库至少检索同义词、上位词、下位词、停止词和/或主题特定的停止词,并且至少部分地基于所检索到的词语生成所述查询(41)的关键词列表。
7.根据前述权利要求所述的方法,其中,通过删除停止词和/或主题特定的停止词并且包含查询的词语的同义词、上位词和下位词中的至少一个来生成所述查询(41)的关键词列表。
8.根据前述权利要求中任一项所述的方法,其中,将所述查询(41)转换为所述第二文本文档数据(31)包括生成至少一个查询向量(47)。
9.根据前述权利要求所述的方法,其中,通过从所述查询(41)识别关键词和/或所述关键词的同义词并且利用多维向量空间中的向量的分量识别所述关键词,来生成所述查询向量(47)。
10.根据前述权利要求所述的方法,其中,所述查询向量(47)包括100至500个分量,优选地包括200至400个分量,甚至更优选地,包括200至300个分量。
11.根据前述权利要求中任一项所述的具有权利要求9的特征的方法,其中,为关键词分配权重。
12.根据前述权利要求所述的方法,其中,至少部分地基于所述查询(41)的一般主体来分配权重。
13.根据前述权利要求中任一项所述的方法,其中,计算所述相似性度量包括应用以下中的至少一个或其组合:余弦指数、Jaccard指数、切块指数、包含指数、皮尔森相关系数、Levenstein距离、Jaro-Winkler距离和/或Needleman-Wunsch算法。
14.根据前述权利要求中任一项所述的方法在步骤d)之后还包括步骤:
f)使用至少一种统计算法来验证所述至少一个相似性度量;并且
g)输出所述至少一个相似性度量。
15.根据前述权利要求所述的方法,其中,从用户界面接收所述查询(41)并且经由所述界面返回所述相似性度量。
16.根据前述权利要求中任一项所述的方法,其中,所述数据库包括与专利文献相关的文本文档,并且其中,构建所述数据库和/或转换所述查询(41)包括删除与所述专利文献相关的文本文档相关联的停止词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于德尼梅尔奥克提麦恩有限公司,未经德尼梅尔奥克提麦恩有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780069862.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:生成数据变换工作流
- 下一篇:生成、访问和显示沿袭元数据