[发明专利]分句方法及其装置、电子设备、计算机可读存储介质有效
| 申请号: | 201811579742.9 | 申请日: | 2018-12-24 |
| 公开(公告)号: | CN109684638B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 史文丽 | 申请(专利权)人: | 北京金山安全软件有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分句 方法 及其 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种分句方法,其特征在于,包括:
获取待分句的文本;
对所述待分句的文本进行分词处理,以生成所述文本对应的分词序列,所述分词序列包括所述待分句的文本的中文符号;
确定所述分词序列中每个分词的词性;以及
根据预先设置的句尾词词性表,从所述每个分词的词性中选择句尾词对应的词性,根据所述句尾词对应的词性,在所述文本对应的分词序列中确定所述句尾词,根据所述句尾词和/或所述中文符号对所述文本对应的分词序列进行分句,以生成多个句子,其中,所述句尾词是指在句子末尾出现的词语;
使用分词算法对生成的每个句子进行分词处理,以获取所述每个句子的分词结果;
根据所述每个句子的分词结果,构建N-Gram语言模型;
使用所述N-Gram语言模型对所述每个句子进行矫正。
2.如权利要求1所述的方法,其特征在于,所述分词序列还包括所述待分句的文本的外文符号,所述对所述待分句的文本进行分词处理,以生成所述文本对应的分词序列,包括:
去除所述待分句的文本中的乱码;和/或,
将所述待分句的文本中的所述外文符号转化为所述中文符号,其中,所述外文符号包括外文标点符号,所述中文符号包括中文标点符号;以及
使用分词算法对所述待分句的文本进行分词处理,以生成所述文本对应的分词序列。
3.如权利要求2所述的方法,其特征在于,在生成多个句子之后,还包括:
判断所述生成的句子是否包含预设词性的词语;
若所述生成的句子包含所述预设词性的词语,则在所述生成的句子中预测补充所述预设词性对应的标点符号。
4.如权利要求1所述的方法,其特征在于,所述使用所述N-Gram语言模型对所述句子进行矫正,包括:
使用所述N-Gram语言模型对所述句子进行组词;
使用所述N-Gram语言模型对所述句子进行词的预测;
使用所述N-Gram语言模型对所述句子进行标点符号的预测。
5.一种分句装置,其特征在于,包括:
获取模块,用于获取待分句的文本;
第一分词处理模块,用于对所述待分句的文本进行分词处理,以生成所述文本对应的分词序列,所述分词序列包括所述待分句的文本的中文符号;
确定模块,用于确定所述分词序列中每个分词的词性;以及
分句模块,用于根据预先设置的句尾词词性表,从所述每个分词的词性中选择句尾词对应的词性,根据所述句尾词对应的词性,在所述文本对应的分词序列中确定所述句尾词,根据所述句尾词和/或所述中文符号对所述文本对应的分词序列进行分句,以生成多个句子,其中,所述句尾词是指在句子末尾出现的词语;
第二分词处理模块,用于使用分词算法对生成的每个句子进行分词处理,以获取所述每个句子的分词结果;
构建模块,用于根据所述每个句子的分词结果,构建N-Gram语言模型;
矫正模块,用于使用所述N-Gram语言模型对所述每个句子进行矫正。
6.如权利要求5所述的装置,其特征在于,所述分词序列还包括所述待分句的文本的外文符号,所述第一分词处理模块,包括:
去除子模块,用于去除所述待分句的文本中的乱码;和/或,
转化子模块,用于将所述待分句的文本中的所述外文符号转化为所述中文符号,其中,所述外文符号包括外文标点符号,所述中文符号包括中文标点符号;以及
分词处理子模块,用于使用分词算法对所述待分句的文本进行分词处理,以生成所述文本对应的分词序列。
7.如权利要求5所述的装置,其特征在于,所述分句模块在生成多个句子之后,还用于判断所述生成的句子是否包含预设词性的词语;
若所述生成的句子包含所述预设词性的词语,则在所述生成的句子中预测补充所述预设词性对应的标点符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811579742.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本特征的综合运用方法
- 下一篇:短信识别方法、装置及电子设备





