[发明专利]语料样本集合的构建方法、计算设备及计算机存储介质在审
申请号: | 201910528366.9 | 申请日: | 2019-06-18 |
公开(公告)号: | CN112101026A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 柳燕煌 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 样本 集合 构建 方法 计算 设备 计算机 存储 介质 | ||
本发明公开了一种语料样本集合的构建方法、计算设备及计算机存储介质。其中方法包括:步骤S1,对语料库的语料进行识别,得到初始的语料样本集合以及利用初始的语料样本集合训练得到的语料识别模型;步骤S2,利用语料识别模型对书籍语料进行识别,得到书籍语料样本;步骤S3,将书籍语料样本添加入语料样本集合;步骤S4,利用更新后的语料样本集合对语料识别模型进行训练;重复执行上述步骤S2至步骤S4,直至更新后的语料样本集合满足第一预设条件。本方案最初的数据来源的语料库,实现了零样本的语料构建与学习,构建出的语料样本集合适用于电子书领域,并且语料样本兼具多样性和准确性的特点。
技术领域
本发明涉及电子书处理技术领域,具体涉及一种语料样本集合的构建方法、计算设备及计算机存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称:NER)是指识别文本中具有特定意义的实体,主要包含人名、地名、机构名、专有名词等等。NER技术是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具。命名实体的识别需要对大量的语料进行样本标注,以作为模型训练的样本集。
在电子书处理领域,书籍搜索是一项常规功能,用户常常会将书籍人物、书籍中的地名等作为搜索词进行搜索,那么从书籍中准确地提取出书籍人物的姓名、书籍中的地名是提供搜索服务的基础和前提。然而,现有的命名实体识别技术所利用语料样本没有覆盖到电子书领域,导致基于电子书领域的命名实体识别缺乏语料样本的支持。若采用人工标注的方式,工作量极大,需要耗费大量的人力成本和时间。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语料样本集合的构建方法、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种语料样本集合的构建方法,包括:
步骤S1,对语料库的语料进行识别,得到初始的语料样本集合以及利用初始的语料样本集合训练得到的语料识别模型;
步骤S2,利用语料识别模型对书籍语料进行识别,得到书籍语料样本;
步骤S3,将书籍语料样本添加入语料样本集合,得到更新后的语料样本集合;
步骤S4,利用更新后的语料样本集合对语料识别模型进行训练,以更新所述语料识别模型;
重复执行上述步骤S2至步骤S4,直至更新后的语料样本集合满足第一预设条件。
进一步的,所述语料为语句,对语料进行识别具体为:对语句中的命名实体进行识别,得到命名实体名称、命名实体类型和命名实体位置。
进一步的,所述方法还包括:对语料库中所有的命名实体的出现频次进行统计,筛选出出现频次大于预设值的高频命名实体,得到高频命名实体字典;
在所述对语料库的语料进行识别,得到初始的语料样本集合之后,所述方法还包括:对初始的语料样本集合进行过滤,滤除其中不包含高频命名实体的语料样本;
在所述步骤S2和步骤S3之间,所述方法还包括:判断所述书籍语料样本是否包含高频命名实体,若是,则执行步骤S3;若否,则丢弃该书籍语料样本。
进一步的,所述对语料库的语料进行识别,得到初始的语料样本集合具体为:利用命名实体识别工具对语料库的语料进行识别,得到初始的语料样本集合;
所述步骤S1还包括:
步骤S11,从语料库中提取语料;
步骤S12,利用语料识别模型对语料进行识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910528366.9/2.html,转载请声明来源钻瓜专利网。