[发明专利]语料库构建方法、装置、电子设备及介质在审

申请号：	202010475517.1	申请日：	2020-05-29
公开（公告）号：	CN111639283A	公开（公告）日：	2020-09-08
发明（设计）人：	周威;王大伟	申请（专利权）人：	深圳壹账通智能科技有限公司
主分类号：	G06F16/955	分类号：	G06F16/955;G06F16/951;G06F16/31;G06F40/216
代理公司：	深圳市赛恩倍吉知识产权代理有限公司 44334	代理人：	刘丽华;孙芬
地址：	518052 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料库构建方法装置电子设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及大数据，提供一种语料库构建方法，能够确定语料库构建指令所指示的领域，确定与领域对应的目标网页并获取所有DIV标签，确定候选标签并检测候选标签中的文字数量是否小于相应阈值，相应阈值为候选标签所属的网页的文字总数量与预设比例的乘积，当候选标签中的文字数量小于相应阈值时，根据相应阈值确定候选标签的目标父标签，目标父标签的文字数量大于或者等于相应阈值，获取目标父标签中的所有子标签，基于超链接文字密度及停用词密度，从所有子标签中确定目标父标签对应的目标子标签，获取目标子标签中的文本信息，根据文本信息，生成语料库，能够生成精确的语料库。本发明还涉及区块链技术，所述语料库存储于区块链中。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语料库构建方法、装置、电子设备及介质。

背景技术

目前，在训练特定领域的自然语言模型时，往往需要大量文本语料，例如，娱乐领域的娱乐新闻语料。然而，由于训练模型所需的语料量较大，人工方式采集语料所花费的人力成本较高，因此，自动化语料采集方案应运而生。

在现有的自动化语料采集方案中，通过从特定页面上抽取正文进而完成语料的采集，然而，现有技术方案难以判断网页内容属于正文还是非正文，因此无法在特定页面上精确地确定正文区域，进而导致生成的语料库中含有非正文内容。

因此，如何构建精确的语料库，成了有待解决的技术问题。

发明内容

鉴于以上内容，有必要提供一种语料库构建方法、装置、电子设备及介质，能够生成精确的语料库。

一种语料库构建方法，所述方法包括：

当接收到语料库构建指令时，从所述语料库构建指令中确定所述语料库构建指令所指示的领域；

确定与所述领域对应的目标网页；

获取所述目标网页的所有DIV标签；