[发明专利]一种内容搜索方法及装置在审
| 申请号: | 201910270196.9 | 申请日: | 2019-04-04 |
| 公开(公告)号: | CN110008310A | 公开(公告)日: | 2019-07-12 |
| 发明(设计)人: | 任宁;卢彦博;晋耀红;李德彦 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335 |
| 代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语料 算子 搜索 标签 内容搜索 自定义搜索 分析模型 逻辑规则 内容添加 搜索目标 需求定义 字符串 消歧 预设 申请 集合 采集 引入 分析 | ||
本申请实施例提供了一种内容搜索方法及装置。其中,该方法包括使用预设的分析模型为语料添加标签,所述为语料添加标签包括为语料中指定类别的内容添加标签;根据搜索需求定义搜索表达式,并使用所述搜索表达式从添加有标签的语料中搜索目标字符串;其中,所述搜索表达式包括至少一个算子和关键词,所述算子包括集合算子、消歧算子和关系算子,每个所述算子形成一个内容搜索条件。由此,本申请实施例提供的技术方案,首先对语料进行分析并添加标签,然后根据搜索需求自定义搜索表达式,并在搜索表达式中通过关键词和算子的组合引入逻辑规则,从而实现从海量的语料中精准地搜索指定句式的语料,提高语料采集效率。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种内容搜索方法及装置。
背景技术
在语言建模以及其他语言研究工作中,经常需要收集语料,并利用收集的语料发现、总结和归纳一些语言规则,并印证语言规则。在目前的语言研究工作中,当语言研究人员希望研究某一类句式时,可以通过日常积累、收集、枚举和想象等方式获取该类句式的语料。例如,当语言研究人员希望研究“高不高兴”“愿不愿意”“好不好玩”等“A不AB”这一类句式时,由于已收集的语料中没有这一类语料,因此,语言研究人员通常通过枚举想象的方式得到这一类语料,显然,这样获得的语料不够全面并且效率较低,降低语言研究的效率和深度。
如果要提高语言研究的效率和深度,就必须要提供一种效率更高的采集语料的方法。因此,本申请提供了一种内容搜索方法,能够从海量的语料中精准地搜索指定句式的语料,由此提高语料采集的效率。
发明内容
本申请实施例提供了一种内容搜索方法及装置,能够从海量的语料中精准地搜索指定句式的语料,从而提高语料采集的效率。
第一方面,本申请实施例提供了一种内容搜索方法。该包括:使用预设的分析模型为语料添加标签,所述为语料添加标签包括为语料中指定类别的内容添加标签;根据搜索需求定义搜索表达式,并使用所述搜索表达式从添加有标签的语料中搜索目标字符串;其中,所述搜索表达式包括至少一个算子和关键词,所述算子包括集合算子、消歧算子和关系算子,每个所述算子形成一个内容搜索条件。
第二方面,本申请实施例提供了一种内容搜索装置。该装置包括:语料处理模块,用于使用预设的分析模型为语料添加标签;所述分析模型包括词表模型,所述为语料添加标签包括为语料中的指定类别的内容添加标签;搜索模块,用于根据搜索需求定义搜索表达式,并使用所述搜索表达式从添加有标签的语料中搜索目标字符串;其中,所述搜索表达式包括至少一个算子和关键词,所述算子包括集合算子、消歧算子和关系算子,每个所述算子形成一个内容搜索条件。
由以上技术方案可知,本申请实施例提供了一种内容搜索方法及装置。其中,该方法包括使用预设的分析模型为语料添加标签,所述为语料添加标签包括为语料中指定类别的内容添加标签;根据搜索需求定义搜索表达式,并使用所述搜索表达式从添加有标签的语料中搜索目标字符串;其中,所述搜索表达式包括至少一个算子和关键词,所述算子包括集合算子、消歧算子和关系算子,每个所述算子形成一个内容搜索条件。由此,本申请实施例提供的技术方案,首先对语料进行分析并添加标签,然后根据搜索需求自定义搜索表达式,并在搜索表达式中通过关键词和算子的组合引入逻辑规则,从而实现从海量的语料中精准地搜索指定句式的语料,提高语料采集效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种内容搜索方法的流程图;
图2是本申请实施例提供的搜索目标字符串的流程图;
图3是本申请实施例提供的搜索目标字符串步骤S201的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910270196.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种短语挖掘方法及装置
- 下一篇:一种基于语义分析的产品信息安全风险监测方法





