[发明专利]文本分块方法和装置在审
| 申请号: | 202211123800.3 | 申请日: | 2022-09-15 |
| 公开(公告)号: | CN115470777A | 公开(公告)日: | 2022-12-13 |
| 发明(设计)人: | 张鹏程 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/30;G06F40/205;G06F40/166 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100176 北京市大兴区经济技*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分块 方法 装置 | ||
1.一种文本分块方法,所述方法包括:
提取待分块文本中各段落的元素信息,生成目标一维数组,所述元素信息包括:段落类别和类别参数;
将目标一维数组中的第一个元素确定为目标元素,执行目标操作;所述目标操作包括:执行分块操作,所述分块操作包括:响应于确定与目标元素的段落类别对应的预设一维数组为空,将目标元素存入所述预设一维数组;响应于确定与目标元素的段落类别对应的预设一维数组不为空,根据目标元素的类别参数与所述预设一维数组中元素的类别参数的比较结果,执行预设操作;所述预设操作包括:响应于确定所述目标元素的类别参数大于预设一维数组中元素的类别参数,将所述预设一维数组压栈入与目标元素的段落类别对应的预设队列,并将目标元素存入重置的预设一维数组;
响应于确定所述分块操作结束,并且所述目标一维数组中存在下一元素,将下一元素确定为目标元素,继续执行所述目标操作;
响应于确定所述分块操作结束,并且所述目标一维数组中不存在下一元素,将目标元素的段落类别对应的预设一维数组、预设队列中的各数组分别作为独立分块存入到目标元素的段落类别对应的预设映射对象中,得到目标映射对象。
2.根据权利要求1所述的方法,所述方法还包括:
基于所述目标映射对象,生成目标分块文本。
3.根据权利要求2所述的方法,其中,所述基于所述目标映射对象,生成目标分块文本,包括:
对于所述目标映射对象中的每一独立分块,响应于检测到针对该独立分块中指定元素的编号更新操作,对所述指定元素的编号进行更新,得到指定元素更新后的编号;
响应于确定该独立分块中存在排序在所述指定元素之后的剩余元素,基于所述指定元素更新后的编号,对所述剩余元素的编号进行更新,得到更新后的目标映射对象;
基于所述更新后的目标映射对象,生成目标分块文本。
4.根据权利要求3所述的方法,所述编号更新操作为设置指定元素的属性为继续编号属性,以及所述对所述指定元素的编号进行更新,包括:
响应于确定所述指定元素为对应独立分块中的第一个元素,将所述指定元素的编号设置为上一独立分块最后一个元素的编号与预设步长的和。
5.根据权利要求3所述的方法,所述编号更新操作为设置指定元素的属性为重新编号属性,以及所述对所述指定元素的编号进行更新,包括:
将所述指定元素的编号设置为初始编号。
6.根据权利要求1所述的方法,其中,所述预设操作还包括:
响应于确定所述目标元素的类别参数等于预设一维数组中元素的类别参数,将目标元素存入预设一维数组。
7.根据权利要求1所述的方法,其中,所述预设操作还包括:
响应于确定所述目标元素的类别参数小于预设一维数组中元素的类别参数,并且与目标元素的段落类别对应的预设队列中不存在数组,将所述预设一维数组作为独立分块存入与目标元素的段落类别对应的预设映射对象,并将目标元素存入重置的预设一维数组;
响应于确定目标元素的类别参数小于预设一维数组中元素的类别参数,并且与目标元素的段落类别对应的预设队列中存在数组,将预设一维数组作为独立分块存入与目标元素的段落类别对应的预设映射对象,将栈顶数组确定为初始数组,执行出栈操作,所述出栈操作包括:
响应于确定初始数组中元素的类别参数大于目标元素的类别参数,将初始数组出栈作为独立分块存入预设映射对象,以及判断预设队列是否存在下一数组;
响应于确定初始数组中元素的类别参数等于目标元素的类别参数,将初始数组出栈并赋值预设一维数组,并将赋值后的预设一维数组确定为新的预设一维数组,以及判断预设队列是否存在下一数组;
响应于确定存在下一数组,将下一元素确定为初始数组,继续执行出栈操作;
响应于确定初始数组中元素的类别参数小于目标元素的类别参数或者不存在下一数组,将目标元素存入与目标元素的段落类别对应的预设一维数组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211123800.3/1.html,转载请声明来源钻瓜专利网。





