[发明专利]一种基于语法点进行检索的方法、装置及文心检索平台在审
| 申请号: | 202211439319.5 | 申请日: | 2022-11-17 |
| 公开(公告)号: | CN115757727A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 杨麟儿;朱君辉;朱琳;刘鑫;杨尔弘 | 申请(专利权)人: | 北京语言大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F16/36;G06F40/253 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语法 进行 检索 方法 装置 平台 | ||
1.一种基于语法点进行检索的方法,其特征在于,所述方法包括:
S1、获取原始语料文件,对所述原始语料文件进行预处理,对预处理后的原始语料文件进行难度等级标注,得到标注语料;
S2、将所述标注语料上传至文心检索平台上,创建对应的索引;
S3、获取检索语言,根据检索语言的规则确定所述检索语言对应的初始检索式;
S4、获取预先建立的语法点,根据所述规则,确定语法点对应的不同类型检索的特定检索式;
S5、根据所述语法点对应的特定检索式,向所述文心检索平台发送检索请求,确定语法点对应的结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始语料文件进行预处理,包括:
对原始语料文件进行分词、词性标注、命名实体识别以及依存句法分析操作。
3.根据权利要求1所述的方法,其特征在于,所述初始检索式的构造模块包括:字符项、词性标签项、命名实体项、依存项、词语难度项以及复杂项六种构成形式。
4.根据权利要求1所述的方法,其特征在于,所述不同类型检索包括普通类型检索以及模式检索。
5.根据权利要求4所述的方法,其特征在于,所述普通检索包括基础检索、依存检索和捕获。
6.一种文心检索平台,其特征在于,所述文心检索平台包括VUE前端模块、Tornado后端模块、语料标注模块、Odinson后端模块;其中:
所述VUE前端模块,用于用户交互;
所述Tornado后端模块,用于接收前端用户请求,对请求做处理后,向所述Odinson后端模块发送检索请求,获取检索结果;
所述语料标注模块,用于对语料进行标注;
所述Odinson后端模块,用于提供检索服务,
所述Odinson后端模块包括构建索引子模块、检索字段设置子模块、parent query子模块以及检索服务子模块,其中:
所述构建索引子模块,用于运行检索后端服务;
所述检索字段设置子模块,设置的字段包括raw、word、tag、lemma、entity以及dependencies;
所述parent query子模块,用于检索制定类别的语料;
所述检索服务子模块,用于为Tornado后端模块提供检索服务。
7.一种基于语法点进行检索的装置,其特征在于,所述装置包括:
标注模块,用于获取原始语料文件,对所述原始语料文件进行预处理,对预处理后的原始语料文件进行难度等级标注,得到标注语料;
创建模块,用于将所述标注语料上传至文心检索平台上,创建对应的索引;
确定模块,用于获取检索语言,根据检索语言的规则确定所述检索语言对应的初始检索式;
建立模块,用于获取预先建立的语法点,根据所述规则,确定语法点对应的不同类型检索的特定检索式;
检索模块,用于根据所述语法点对应的特定检索式,向所述文心检索平台发送检索请求,确定语法点对应的结果。
8.根据权利要求7所述的装置,其特征在于,所述对所述原始语料文件进行预处理,包括:
对原始语料文件进行分词、词性标注、命名实体识别以及依存句法分析操作。
9.根据权利要求7所述的装置,其特征在于,所述初始检索式的构造模块包括:字符项、词性标签项、命名实体项、依存项、词语难度项以及复杂项六种构成形式。
10.根据权利要求7所述的装置,其特征在于,所述不同类型检索包括普通类型检索以及模式检索,普通检索包括基础检索、依存检索和捕获。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211439319.5/1.html,转载请声明来源钻瓜专利网。





