[发明专利]基于倒排索引的短文本匹配方法及装置在审

申请号：	202010328205.8	申请日：	2020-04-23
公开（公告）号：	CN111581329A	公开（公告）日：	2020-08-25
发明（设计）人：	陈恒生;叶浩	申请（专利权）人：	上海兑观信息科技技术有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/332;G06F40/242
代理公司：	上海互顺专利代理事务所(普通合伙) 31332	代理人：	韦志刚
地址：	201203 上海市浦东新区中国(上海)自由贸易试***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于索引文本匹配方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明适用于自然语言处理技术领域，提供了基于倒排索引的短文本匹配方法及装置，该方法包括：对输入的文字进行特征提取，并把提取后的特征与知识库中的规则模板进行一一匹配，查找到最合适的模板。特别地，本发明在特征提取之后，采用倒排索引技术对输入的文字建立倒排索引，优化了匹配时的计算效率，从而大大加快之后与知识库中的模板进行一一匹配的过程。该装置包括规则模板知识库、特征提取器、特征扩展器、倒排索引生成器、模板编译器和模板匹配器。本发明可应用于智能客服、问答系统中的问题匹配，或者其他信息检索场景下的用户输入匹配，还可以进行灵活而复杂的文本匹配规则设置，同时保证匹配过程的高效率执行。

技术领域

本发明属于自然语言处理领域，尤其涉及基于倒排索引的短文本匹配方法及装置。

背景技术

自然语言处理是研究人和计算机之间通过自然语言进行交互的技术，文本匹配是自然语言处理中的一个重要任务。通常在一个问答系统中，可以通过事先建立好的一个问答知识库，并把用户输入的问题文本与知识库中所有问题进行匹配，找到匹配问题的答案从而回答用户的问题。文本匹配一般包括使用文本与文本之间做匹配，以及文本与规则模板之间匹做配两种方式。倒排索引是一种根据属性的值来查找记录的技术，通常信息检索领域，加快搜索引擎全文搜索的效率。

现阶段，文本匹配一般包括使用文本与文本之间做匹配，以及文本与规则模板之间匹做配两种方式。文本与文本之间的匹配技术，使用起来比较简单，但是往往语义匹配不够精准，目前基于深度学习的技术在精准度上有了一定突破，但是对数据量的需求比较大，在数据较少的情况下也不够精准。正则表达式技术，使用起来需要一定的专业知识基础，同时也不太直观容易出错，特别是它的模糊匹配机制在这种操作符出现次数较多时，会使性能指数级下降。

另外，CN201811241976提出的方法相对正则表达式来说简单易用，性能也很快，但是匹配能力却不够强，不能支持基于短语前后位置的规则。

发明内容

本发明提供基于倒排索引的短文本匹配方法及装置，主要目的是用于智能客服问答领域，精准地匹配问题，正确回答用户的提问。

本发明是这样实现的，基于倒排索引的短文本匹配方法，包括以下步骤：

S1、特征提取：对输入的文本进行特征提取，所述特征为从文本中蕴含的若干短语，以及短语在文本中的位置组成；

S2、特征扩展：对步骤S1提取的特征进行扩展，把提取出的短语的同义词或类别名，配合短语在文本中的位置，作为新的特征；

S3、生成倒排索引：对所有特征建立倒排索引；

S4、规则匹配：依次把所述倒排索引与预设的规则模板做匹配，输出匹配结果；

S5、输出结果：根据匹配出的结果，以及各个规则模板之间的预设的优先级关系，选择优先级最高的一条规则模板，作为输出。

优选的，所述特征提取具体为：

预设置一个短语词典，用trie树对输入文本进行短语匹配，提取出同时存在于短语字典与输入文本中的短语；

如果两个短语之间有互相覆盖，则选择长度更长的短语，丢弃掉较短的；如果长度一样，那么选择位置靠前的短语。