[发明专利]一种基于语法点进行检索的方法、装置及文心检索平台在审
| 申请号: | 202211439319.5 | 申请日: | 2022-11-17 |
| 公开(公告)号: | CN115757727A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 杨麟儿;朱君辉;朱琳;刘鑫;杨尔弘 | 申请(专利权)人: | 北京语言大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F16/36;G06F40/253 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语法 进行 检索 方法 装置 平台 | ||
本发明涉及语言处理技术领域,特别是指一种基于语法点进行检索的方法、装置及文心检索平台,方法包括:获取原始语料文件,对所述原始语料文件进行预处理,对预处理后的原始语料文件进行难度等级标注,得到标注语料;将所述标注语料上传至文心检索平台上,创建对应的索引;确定检索语言的规则及初始检索式;建立语法点,根据所述规则,确定语法点对应的不同类型检索的检索式;根据所述语法点对应的检索式,向所述文心检索平台发送检索请求,确定语法点对应的结果。采用本发明,可以提高检索准确率。
技术领域
本发明涉及语言处理技术领域,特别是指一种基于语法点进行检索的方法、装置及文心检索平台。
背景技术
语料库作为一个收录各类型语言数据的综合性语言资源,在语言本体研究及语言应用领域(如语言教学、教材编写、词典编纂等方面)都发挥着非常重要的作用。随着语言数据积累的规模日益扩大与语料库技术发展的日益革新,国内外已建成了多种类型、多种规模的语料库以供不同研究目的的使用,也提供了多种语料库检索平台和工具,为语言学相关研究提供了更大规模的检索以及对语言系统性分析的可能性。
其中,语料库的建设是核心基础。语料库系统在为语言学研究提供翔实的语言证据的同时,其语料的加工方式与系统检索工具的功能性也限制着它在研究中的具体用途。“工欲善其事,必先利其器”。做好语料库建设工作,设计好语料库检索方式是开展基于语料库相关研究的前提。
相较而言,当前国内汉语语料库资源建设存在以下不足:检索方式普遍停留在句子的表层形式上,依靠关键字、词和词性匹配来进行检索约束,而较少地关注到句子深层的句法结构,面对涉及到句法成分、依存搭配等较为复杂的检索需求略显吃力;检索模式单一,检索功能的全面性与用户友好性难以兼顾。总的来说,目前汉语语料库的构建情况与日趋精细化、智能化、简洁化的检索需求不匹配,不利于基于语料库的语言研究的开展和相关研究工作的深入。
发明内容
本发明实施例提供了一种基于语法点进行检索的方法、装置及文心检索平台。所述技术方案如下:
一方面,提供了一种基于语法点进行检索的方法,该方法由电子终端实现,该方法包括:
S1、获取原始语料文件,对所述原始语料文件进行预处理,对预处理后的原始语料文件进行难度等级标注,得到标注语料;
S2、将所述标注语料上传至文心检索平台上,创建对应的索引;
S3、获取检索语言,根据检索语言的规则确定所述检索语言对应的初始检索式;
S4、获取预先建立的语法点,根据所述规则,确定语法点对应的不同类型检索的特定检索式;
S5、根据所述语法点对应的特定检索式,向所述文心检索平台发送检索请求,确定语法点对应的结果。
可选地,所述对所述原始语料文件进行预处理,包括:
对原始语料文件进行分词、词性标注、命名实体识别以及依存句法分析操作。
可选地,所述初始检索式的构造模块包括:字符项、词性标签项、命名实体项、依存项、词语难度项以及复杂项六种构成形式。
可选地,所述不同类型检索包括普通类型检索以及模式检索。
可选地,所述普通检索包括基础检索、依存检索和捕获。
另一方面,提供了一种文心检索平台,其特征在于,所述文心检索平台包括VUE前端模块、Tornado后端模块、语料标注模块、Odinson后端模块;其中:
所述VUE前端模块,用于用户交互;
所述Tornado后端模块,用于接收前端用户请求,对请求做处理后,向所述Odinson后端模块发送检索请求,获取检索结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211439319.5/2.html,转载请声明来源钻瓜专利网。





