[发明专利]一种检索结果提供方法及系统有效
| 申请号: | 202110417238.4 | 申请日: | 2021-04-19 |
| 公开(公告)号: | CN113139048B | 公开(公告)日: | 2022-11-04 |
| 发明(设计)人: | 冯晓硕;万克;陈鸣;李梁 | 申请(专利权)人: | 中国人民解放军91054部队 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06F16/338;G06F16/31;G06F16/951;G06F40/30;G06F40/205 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 102442*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 检索 结果 提供 方法 系统 | ||
本发明提供一种检索结果提供方法及系统,涉及计算机信息处理技术领域。该方法及系统针对摘要模型即序列到序列的文本生成模型能够接收的输入十分有限,而检索结果中与检索文本相关的内容比较少。通过将原文文本拆分为段落,对段落进行检索,使检索返回结果更加地精确。无需受到原文文本段落安排的限制,可以按照与检索文本的相关程度进行排序。而包含与检索文本高度相关的段落文本所在原文的其他不相关文本可以根据相似度不包含于搜索结果中。使用了自然语言模型将文本转换为文本嵌入,并且语义相近的文本在文本嵌入空间距离较小,相似度较高。使用序列到序列的文本生成模型将得到的检索结果做智能表述,在了解检索结果语义的情况下减少阅读时间。
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种检索结果提供方法及系统。
背景技术
目前的搜索引擎等无法根据检索结果做单一简短智能表述。
当前能对文本生成摘要的语言模型,无法接收长文本的输入,仅能对长文本按语言模型能接收的最大长度进行截断处理仅保留文本前一部分作为输入。
搜索引擎仅能返回与检索文本相关的多个文本全文,而将这些文本全文拼接后,长度远超过语言模型能接收输入的最大长度。所以仅能对单一文本分别生成对应摘要,而非检索的多个结果。
搜索引擎返回的全文结果中,与检索文本相关的内容大部分情况下仅有一小段相关,而其他均为无意义内容。而该无意义内容无法在检索过程中进行排除。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种检索结果提供方法及系统,结合段落级别的语义搜索与语言模型的使用,为搜索引擎返回的多个检索结果提供单一的摘要对用户进行展示。
为解决上述技术问题,本发明所采取的技术方案是:
一方面,本发明提供一种检索结果提供方法,包括以下步骤;
步骤1:获取待检索文本,进行数据清洗及文本相关数据的提取;再根据“\n”字符,采用段落切分方法,将待检索原始文本切分成段落级别的文本,并与其他文本相关数据存入文本数据库中;
使用爬虫工具,从互联网获取待检索的网页文本,并对网页文本进行清洗去除无关文本;对清洗后的文本,使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关数据进行提取;再根据“\n”标识符将清洗后的文本切分成段落级别的文本,并且删除空文本;将文本根据段落切分后,每个段落对应原文的索引,以获取原文的其他信息;
步骤2:使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练,使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近;
从文本数据库中随机选取多个段落文本,同时随机选取其中一个段落中的一个句子,并将该句子从该段落中删除;使用BERT语言模型对该句子和所有段落文本生成语义嵌入,并使该句子与所在的段落文本的嵌入之间的距离最近,然后使用梯度下降算法对BERT语言模型中的参数进行更新;多次重复该步骤直至遍历待检索文本N次,保存BERT语言模型;
步骤3:使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型,使模型输出能保留输入文本的中心语义的同时缩减输出文本长度;
使用CNN-dailymail摘要数据集对序列到序列文本生成模型进行训练,使序列到序列文本生成模型对文本输入生成的摘要与数据集中提供的摘要一致;并选取待检索文本中概括性语句作为摘要对序列到序列文本生成模型继续训练,保存序列到序列文本生成模型;
步骤4:使用步骤2训练之后的语言模型将步骤1中保存的段落文本转换为对应的文本嵌入表示,并将文本的嵌入表示作为段落文本的属性持久化保存;
步骤5:将用户输入的检索文本使用语言模型转换为文本嵌入表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军91054部队,未经中国人民解放军91054部队许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110417238.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种14-羟芸·嘌呤可溶液剂及其制备方法
- 下一篇:负极片、电芯及电池





