[发明专利]基于倒排索引的短文本匹配方法及装置在审
申请号: | 202010328205.8 | 申请日: | 2020-04-23 |
公开(公告)号: | CN111581329A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 陈恒生;叶浩 | 申请(专利权)人: | 上海兑观信息科技技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F40/242 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 韦志刚 |
地址: | 201203 上海市浦东新区中国(上海)自由贸易试*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 索引 文本 匹配 方法 装置 | ||
1.基于倒排索引的短文本匹配方法,其特征在于:包括以下步骤:
S1、特征提取:对输入的文本进行特征提取,所述特征为从文本中蕴含的若干短语,以及短语在文本中的位置组成;
S2、特征扩展:对步骤S1提取的特征进行扩展,把提取出的短语的同义词或类别名,配合短语在文本中的位置,作为新的特征;
S3、生成倒排索引:对所有特征建立倒排索引;
S4、规则匹配:依次把所述倒排索引与预设的规则模板做匹配,输出匹配结果;
S5、输出结果:根据匹配出的结果,以及各个规则模板之间的预设的优先级关系,选择优先级最高的一条规则模板,作为输出。
2.如权利要求1所述的基于倒排索引的短文本匹配方法,其特征在于:所述特征提取具体为:
预设置一个短语词典,用trie树对输入文本进行短语匹配,提取出同时存在于短语字典与输入文本中的短语;
如果两个短语之间有互相覆盖,则选择长度更长的短语,丢弃掉较短的;如果长度一样,那么选择位置靠前的短语。
3.如权利要求2所述的基于倒排索引的短文本匹配方法,其特征在于:所述特征扩展具体为:
预设置一个短语映射表,短语映射表用于将提取出的特征中的短语进行映射后作为新的特征加入特征表中。
4.如权利要求3所述的基于倒排索引的短文本匹配方法,其特征在于:所述规则匹配具体为:
预设置一个规则模板知识库,所述规则模板知识库包含多个规则模板,然后把倒排索引与所述规则模板知识库中的每一条规则模板做匹配,每一条匹配结果均为成功或失败。
5.如权利要求4所述的基于倒排索引的短文本匹配方法,其特征在于:所述输出结果具体为:
对于所有成功匹配的规则模板,如果数量超过一,视为匹配结果存在冲突;
当存在冲突时,根据规则模板知识库中预设的模板之间的相对优先级,将匹配成功的模板中的优先级较低的丢弃;
如果不再存在冲突,则输出结果为一条成功匹配的规则模板的编号;如果继续存在冲突,则输出结果为判定所有匹配失败。
6.基于倒排索引的短文本匹配装置,其特征在于:包括一个规则模板知识库、一个特征提取器、一个特征扩展器、一个倒排索引生成器、一个模板编译器和一个模板匹配器;
所述规则模板知识库包含预定义的多个规则模板,以及多个规则模板之间的相对优先级的信息;
所述特征提取器包含一个预设置的短语词典,特征提取器在运行时用于提取出同时存在于短语字典与输入文本中的短语;
所述特征扩展器包含一个预先定义的短语映射表,在运行时对特征提取器提取出的特征进行扩展;
所述倒排索引生成器用于对特征扩展器扩展后的规则生成倒排索引;
所述模板编译器用于对规则模板知识库中预定义的规则模板进行编译;
所述模板匹配器用于将生成的倒排索引与知识库中的规则模板编译后的对象一一进行匹配,如果存在多个匹配成功的规则模板,按照规则模板知识库内的优先级规则,做出筛选,输出最终匹配结果。
7.如权利要求6所述的基于倒排索引的短文本匹配装置,其特征在于:还包括模板匹配缓存器,其用于在模板匹配过程中提供缓存服务,加快整体匹配效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海兑观信息科技技术有限公司,未经上海兑观信息科技技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010328205.8/1.html,转载请声明来源钻瓜专利网。