[发明专利]行业文本增量方法、相关装置及计算机程序产品有效
| 申请号: | 202110189733.4 | 申请日: | 2021-02-19 |
| 公开(公告)号: | CN112906368B | 公开(公告)日: | 2022-09-02 |
| 发明(设计)人: | 方舟;史亚冰;蒋烨;柴春光 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/253;G06F16/35;G06F16/36;G06F16/33;G06F16/332 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 行业 文本 增量 方法 相关 装置 计算机 程序 产品 | ||
本申请实施例公开了行业文本增量方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能技术领域。该方法的一具体实施方式包括:获取目标行业领域下存量低于预设第一数量级的原始行业文本;其中,行业文本指用于描述相应行业领域下的专属对象的文本内容;利用远监督对原始行业文本进行样本增量处理,得到存量大于预设第二数量级的增量后行业文本;其中,预设第二数量级不小于预设第一数量级。通过应用该实施方式可通过远监督方法来帮助低资源的目标行业文本实现较好的样本增量。
技术领域
本申请涉及数据处理技术领域,具体涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能技术领域,尤其涉及行业文本增量方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
信息抽取技术可以用于辅助行业中的智能问答、智能客服等依赖信息处理与信息检索的需求。得益于人工智能与深度学习技术的发展,信息抽取等自然语言处理相关技术近些年出现了突飞猛进的发展。与传统机器学习模型有所区别,深度学习模型不需要依赖人工定义的高级特征。只需要通过基础特征、设计适合的深度学习模型结构以及在大规模的标注数据上进行训练,信息抽取任务就可以取得很高的准确率与召回率。
常规依赖深度学习模型的方案往往需要大量的标准数据进行模型训练,而行业语料标注成本较高,对于低资源的情景很难有好的抽取效果。
发明内容
本申请实施例提出了一种行业文本增量方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
第一方面,本申请实施例提出了一种行业文本增量方法,包括:获取目标行业领域下存量低于预设第一数量级的原始行业文本;其中,行业文本指用于描述相应行业领域下的专属对象的文本内容;利用包括远监督方法对原始行业文本进行样本增量处理,得到存量大于预设第二数量级的增量后行业文本;其中,预设第二数量级不小于预设第一数量级。
第二方面,本申请实施例提出了一种行业文本增量装置,包括:获取目标行业领域下存量低于预设第一数量级的原始行业文本;其中,行业文本指用于描述相应行业领域下的专属对象的文本内容;利用包括远监督方法对原始行业文本进行样本增量处理,得到存量大于预设第二数量级的增量后行业文本;其中,预设第二数量级不小于预设第一数量级。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的行业文本增量方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的行业文本增量方法。
第五方面,本申请实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的行业文本增量方法。
本申请实施例提供的行业文本增量方法、装置、电子设备、计算机可读存储介质及计算机程序产品,首先,获取目标行业领域下存量低于预设第一数量级的原始行业文本,行业文本指用于描述相应行业领域下的专属对象的文本内容;然后,利用包括远监督方法对原始行业文本进行样本增量处理,得到存量大于预设第二数量级的增量后行业文本,该预设第二数量级不小于该预设第一数量级。
针对原始行业文本的存量低于预设第一数量级的目标行业领域,本申请通过远监督方法来实现样本增量,远监督方法能够根据原始行业文本中各名词之前的关联在其它行业领域或公开语料库中找到符合要求的新文本作为增量文本,进而实现样本量级的扩充,进而使得在样本增量技术的帮助下低资源的目标行业文本也能够训练出精度满足要求的用于精准提取主谓宾三元组的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110189733.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种深海采矿混输停泵保护装置
- 下一篇:一种蟾蜍的饲养方法





