[发明专利]一种内容搜索方法及装置在审

专利信息
申请号: 201910270196.9 申请日: 2019-04-04
公开(公告)号: CN110008310A 公开(公告)日: 2019-07-12
发明(设计)人: 任宁;卢彦博;晋耀红;李德彦 申请(专利权)人: 北京神州泰岳软件股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/335
代理公司: 北京弘权知识产权代理事务所(普通合伙) 11363 代理人: 逯长明;许伟群
地址: 100089 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语料 算子 搜索 标签 内容搜索 自定义搜索 分析模型 逻辑规则 内容添加 搜索目标 需求定义 字符串 消歧 预设 申请 集合 采集 引入 分析
【说明书】:

本申请实施例提供了一种内容搜索方法及装置。其中,该方法包括使用预设的分析模型为语料添加标签,所述为语料添加标签包括为语料中指定类别的内容添加标签;根据搜索需求定义搜索表达式,并使用所述搜索表达式从添加有标签的语料中搜索目标字符串;其中,所述搜索表达式包括至少一个算子和关键词,所述算子包括集合算子、消歧算子和关系算子,每个所述算子形成一个内容搜索条件。由此,本申请实施例提供的技术方案,首先对语料进行分析并添加标签,然后根据搜索需求自定义搜索表达式,并在搜索表达式中通过关键词和算子的组合引入逻辑规则,从而实现从海量的语料中精准地搜索指定句式的语料,提高语料采集效率。

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种内容搜索方法及装置。

背景技术

在语言建模以及其他语言研究工作中,经常需要收集语料,并利用收集的语料发现、总结和归纳一些语言规则,并印证语言规则。在目前的语言研究工作中,当语言研究人员希望研究某一类句式时,可以通过日常积累、收集、枚举和想象等方式获取该类句式的语料。例如,当语言研究人员希望研究“高不高兴”“愿不愿意”“好不好玩”等“A不AB”这一类句式时,由于已收集的语料中没有这一类语料,因此,语言研究人员通常通过枚举想象的方式得到这一类语料,显然,这样获得的语料不够全面并且效率较低,降低语言研究的效率和深度。

如果要提高语言研究的效率和深度,就必须要提供一种效率更高的采集语料的方法。因此,本申请提供了一种内容搜索方法,能够从海量的语料中精准地搜索指定句式的语料,由此提高语料采集的效率。

发明内容

本申请实施例提供了一种内容搜索方法及装置,能够从海量的语料中精准地搜索指定句式的语料,从而提高语料采集的效率。

第一方面,本申请实施例提供了一种内容搜索方法。该包括:使用预设的分析模型为语料添加标签,所述为语料添加标签包括为语料中指定类别的内容添加标签;根据搜索需求定义搜索表达式,并使用所述搜索表达式从添加有标签的语料中搜索目标字符串;其中,所述搜索表达式包括至少一个算子和关键词,所述算子包括集合算子、消歧算子和关系算子,每个所述算子形成一个内容搜索条件。

第二方面,本申请实施例提供了一种内容搜索装置。该装置包括:语料处理模块,用于使用预设的分析模型为语料添加标签;所述分析模型包括词表模型,所述为语料添加标签包括为语料中的指定类别的内容添加标签;搜索模块,用于根据搜索需求定义搜索表达式,并使用所述搜索表达式从添加有标签的语料中搜索目标字符串;其中,所述搜索表达式包括至少一个算子和关键词,所述算子包括集合算子、消歧算子和关系算子,每个所述算子形成一个内容搜索条件。

由以上技术方案可知,本申请实施例提供了一种内容搜索方法及装置。其中,该方法包括使用预设的分析模型为语料添加标签,所述为语料添加标签包括为语料中指定类别的内容添加标签;根据搜索需求定义搜索表达式,并使用所述搜索表达式从添加有标签的语料中搜索目标字符串;其中,所述搜索表达式包括至少一个算子和关键词,所述算子包括集合算子、消歧算子和关系算子,每个所述算子形成一个内容搜索条件。由此,本申请实施例提供的技术方案,首先对语料进行分析并添加标签,然后根据搜索需求自定义搜索表达式,并在搜索表达式中通过关键词和算子的组合引入逻辑规则,从而实现从海量的语料中精准地搜索指定句式的语料,提高语料采集效率。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种内容搜索方法的流程图;

图2是本申请实施例提供的搜索目标字符串的流程图;

图3是本申请实施例提供的搜索目标字符串步骤S201的流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910270196.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top