[发明专利]检索文本相关性的评估方法、装置、服务器和存储介质有效

申请号：	201711284320.4	申请日：	2017-12-07
公开（公告）号：	CN107908783B	公开（公告）日：	2021-06-11
发明（设计）人：	王健;金鑫	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	检索文本相关性评估方法装置服务器存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种检索文本相关性的评估方法、装置、服务器和存储介质。其中，方法包括：对查询和检索文本组成的多个样本对进行文本特征提取，其中，所述文本特征包括原始文本特征和结构化文本特征；将所述文本特征和对所述多个样本对的相关性标注作为语料进行训练，得到评估模型，该评估模型用于评估查询与检索文本的相关性。本发明实施例实现了在评估检索文本相关性时兼顾评估问题的深入度与自动化，兼顾判决逻辑的准确性与泛化识别能力，能够通过评估提高检索召回的全面性和匹配度，提升用户体验，同时评估模型的训练与使用使评估文本覆盖量大，且降低了人工评估的成本。

技术领域

本发明实施例涉及互联网技术，尤其涉及一种检索文本相关性的评估方法、装置、服务器和存储介质。

背景技术

在检索系统中，用户通过查询文本来表达检索的全部需求信息，检索系统所提供的检索结果与查询文本的相关性决定了检索系统为用户提供更深度服务的机会。衡量一个检索系统的好坏的关键因素就是能否做到准确高效的评估检索文本的相关性。

在现有技术中，对检索文本相关性评估的方法包括：人工抽评，由产品评估人员抽取样例，手工对多个版本或产品进行比较；通过查询文本和召回文本直接进行文本相似度对比，计算匹配子串的长度或占比等；通过明确指标制定下的自动化校验。

但是，人工抽评的评估方式，人力投入过大、样本覆盖有限，仅针对单个案例准确率较高，衡量全盘现状的能力和及时性都较差，更无法做到对系统批量干预。直接进行文本相似度对比的评估方式无法应对语义表达的多样性，且识别粒度较粗，此类判断在一般的检索系统中也都有覆盖，难以发现深入问题，且整体识别准确率较低。通过明确指标制定下的自动化校验，则受限于策略逻辑的复杂性，无法同时兼顾泛化处理能力及准确性，此类判决模型迭代成本大。

发明内容

本发明实施例提供一种检索文本相关性的评估方法、装置、服务器和存储介质，实现了在评估检索文本相关性时兼顾评估问题的深入度与自动化，兼顾判决逻辑的准确性与泛化识别能力，能够通过评估提高检索召回的全面性和匹配度，提升用户体验，同时评估模型的训练与使用评估文本覆盖量大，且降低了人工评估的成本。

第一方面，本发明实施例提供了一种检索文本相关性的评估方法，该方法包括：

对查询和检索文本组成的多个样本对进行文本特征提取，其中，所述文本特征包括原始文本特征和结构化文本特征；

将所述文本特征和对所述多个样本对的相关性标注作为语料进行训练，得到评估模型，该评估模型用于评估查询与检索文本的相关性。

第二方面，本发明实施例还提供了一种检索文本相关性的评估装置，该装置包括：

特征提取模块，用于对查询和检索文本组成的多个样本对进行文本特征提取，其中，所述文本特征包括原始文本特征和结构化文本特征；

模型训练模块，用于将所述文本特征和对所述多个样本对的相关性标注作为语料进行训练，得到评估模型，该评估模型用于评估查询与检索文本的相关性。

第三方面，本发明实施例还提供了一种服务器，该服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的检索文本相关性的评估方法。