[发明专利]一种基于语法点进行检索的方法、装置及文心检索平台在审

申请号：	202211439319.5	申请日：	2022-11-17
公开（公告）号：	CN115757727A	公开（公告）日：	2023-03-07
发明（设计）人：	杨麟儿;朱君辉;朱琳;刘鑫;杨尔弘	申请（专利权）人：	北京语言大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/35;G06F16/36;G06F40/253
代理公司：	北京市广友专利事务所有限责任公司 11237	代理人：	张仲波
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语法进行检索方法装置平台
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于语法点进行检索的方法，其特征在于，所述方法包括：

S1、获取原始语料文件，对所述原始语料文件进行预处理，对预处理后的原始语料文件进行难度等级标注，得到标注语料；

S2、将所述标注语料上传至文心检索平台上，创建对应的索引；

S3、获取检索语言，根据检索语言的规则确定所述检索语言对应的初始检索式；

S4、获取预先建立的语法点，根据所述规则，确定语法点对应的不同类型检索的特定检索式；

S5、根据所述语法点对应的特定检索式，向所述文心检索平台发送检索请求，确定语法点对应的结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述原始语料文件进行预处理，包括：

对原始语料文件进行分词、词性标注、命名实体识别以及依存句法分析操作。

3.根据权利要求1所述的方法，其特征在于，所述初始检索式的构造模块包括：字符项、词性标签项、命名实体项、依存项、词语难度项以及复杂项六种构成形式。

4.根据权利要求1所述的方法，其特征在于，所述不同类型检索包括普通类型检索以及模式检索。

5.根据权利要求4所述的方法，其特征在于，所述普通检索包括基础检索、依存检索和捕获。

6.一种文心检索平台，其特征在于，所述文心检索平台包括VUE前端模块、Tornado后端模块、语料标注模块、Odinson后端模块；其中：

所述VUE前端模块，用于用户交互；

所述Tornado后端模块，用于接收前端用户请求，对请求做处理后，向所述Odinson后端模块发送检索请求，获取检索结果；

所述语料标注模块，用于对语料进行标注；

所述Odinson后端模块，用于提供检索服务，

所述Odinson后端模块包括构建索引子模块、检索字段设置子模块、parent query子模块以及检索服务子模块，其中：

所述构建索引子模块，用于运行检索后端服务；

所述检索字段设置子模块，设置的字段包括raw、word、tag、lemma、entity以及dependencies；

所述parent query子模块，用于检索制定类别的语料；

所述检索服务子模块，用于为Tornado后端模块提供检索服务。

7.一种基于语法点进行检索的装置，其特征在于，所述装置包括：

标注模块，用于获取原始语料文件，对所述原始语料文件进行预处理，对预处理后的原始语料文件进行难度等级标注，得到标注语料；

创建模块，用于将所述标注语料上传至文心检索平台上，创建对应的索引；

确定模块，用于获取检索语言，根据检索语言的规则确定所述检索语言对应的初始检索式；

建立模块，用于获取预先建立的语法点，根据所述规则，确定语法点对应的不同类型检索的特定检索式；

检索模块，用于根据所述语法点对应的特定检索式，向所述文心检索平台发送检索请求，确定语法点对应的结果。

8.根据权利要求7所述的装置，其特征在于，所述对所述原始语料文件进行预处理，包括：

对原始语料文件进行分词、词性标注、命名实体识别以及依存句法分析操作。

9.根据权利要求7所述的装置，其特征在于，所述初始检索式的构造模块包括：字符项、词性标签项、命名实体项、依存项、词语难度项以及复杂项六种构成形式。

10.根据权利要求7所述的装置，其特征在于，所述不同类型检索包括普通类型检索以及模式检索，普通检索包括基础检索、依存检索和捕获。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京语言大学，未经北京语言大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211439319.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载