[发明专利]文本切句方法、装置、计算机设备和存储介质在审
| 申请号: | 202011185970.5 | 申请日: | 2020-10-30 |
| 公开(公告)号: | CN112307167A | 公开(公告)日: | 2021-02-02 |
| 发明(设计)人: | 姜博怀;杨勤荣 | 申请(专利权)人: | 广州华多网络科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/40 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄晓庆 |
| 地址: | 511400 广东省广州市番禺区南村镇万*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本切句方法,其特征在于,所述方法包括:
在接收到切句指令后,调用切句状态机,所述切句状态机包括多个状态、各所述状态分别对应的目标事件以及多个状态转移条件,其中,所述切句状态机包括的多个所述目标事件至少包括切句事件和读取所述切句状态机的有限输入集合中的字符的读取事件,各所述状态转移条件与字符的属性信息相关;
将待进行切句的目标文本中的字符作为所述有限输入集合;
基于所述有限输入集合,利用所述切句状态机对所述目标文本进行切句处理。
2.根据权利要求1所述的方法,其特征在于,所述利用所述切句状态机对所述目标文本进行切句处理,包括:
获取所述切句状态机当前所处状态对应的目标事件;
若当前所处状态对应的目标事件是所述切句事件,则执行所述切句事件,以在已读取的最后一个字符的位置处对所述目标文本进行切句。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若当前所处状态对应的目标事件不是所述切句事件,则获取当前所处状态对应的目标事件的执行结果,并从所述多个状态转移条件中确定所述执行结果所满足的目标状态转移条件;
调用所述目标状态转移条件对应的状态转移函数,利用所述状态转移函数将所述切句状态机从当前所处状态跳转至目标状态。
4.根据权利要求3所述的方法,其特征在于,所述当前所处状态对应的目标事件为所述读取事件,所述执行结果为读取到的字符,所述从所述多个状态转移条件中确定所述执行结果所满足的目标状态转移条件,包括:
确定读取到的字符的类型信息;
根据所述类型信息,从所述多个状态转移条件中确定所述类型信息所满足的所述目标状态转移条件。
5.根据权利要求3所述的方法,其特征在于,所述当前所处状态对应的目标事件为所述读取事件,所述执行结果为读取到的字符,所述从所述多个状态转移条件中确定所述执行结果所满足的目标状态转移条件,包括:
确定已读取到的字符的数量;
根据所述已读取到的字符的数量从所述多个状态转移条件中确定所述已读取的字符的数量所满足的所述目标状态转移条件。
6.根据权利要求1所述的方法,其特征在于,所述目标事件包括读取所述有限输入集合中的下一个字符的事件、读取所述有限输入集合中的前一个字符的事件、切句事件和结束事件;
所述状态转移条件包括字符属于停句符号,字符属于书名号,字符属于最后一个字符,字符属于外文字符和字符为第N个字符中的至少一个,其中N为已读取的字符的数量。
7.根据权利要求1所述的方法,其特征在于,所述调用切句状态机之前,所述方法还包括:
提供状态机配置界面;
基于所述状态机配置界面接收用户输入的状态配置信息、目标事件信息以及状态转移条件信息;
根据所述状态配置信息确定所述切句状态机的多个状态;
根据所述目标事件信息确定各所述状态分别对应的目标事件;
根据所述状态转移条件信息确定所述多个状态转移条件;
根据所述多个状态,各所述状态分别对应的目标事件以及多个状态转移条件生成所述切句状态机。
8.一种文本切句装置,其特征在于,所述装置包括:
状态机调用模块,用于在接收到切句指令后,调用切句状态机,所述切句状态机包括多个状态、各所述状态分别对应的目标事件以及多个状态转移条件,其中,所述切句状态机包括的多个所述目标事件至少包括切句事件和读取所述切句状态机的有限输入集合中的字符的读取事件,各所述状态转移条件与字符的属性信息相关;
文本处理模块,用于将待进行切句的目标文本中的字符作为所述有限输入集合;
切句模块,用于基于所述有限输入集合,利用所述切句状态机对所述目标文本进行切句处理。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011185970.5/1.html,转载请声明来源钻瓜专利网。





