[发明专利]分句方法及其装置、电子设备、计算机可读存储介质有效
| 申请号: | 201811579742.9 | 申请日: | 2018-12-24 |
| 公开(公告)号: | CN109684638B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 史文丽 | 申请(专利权)人: | 北京金山安全软件有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分句 方法 及其 装置 电子设备 计算机 可读 存储 介质 | ||
本发明实施例提出一种分句方法及其装置,电子设备,计算机可读存储介质,其中,方法包括:获取待分句的文本,对待分句的文本进行分词处理,以生成文本对应的分词序列。确定分词序列中每个分词的词性,根据每个分词的词性,对分词序列进行分句以生成多个句子。由此,实现了通过对文本进行分词处理,根据分词的词性生成整理后的句子,使得整理后的句子更加便于被语言模型进行分析和处理,进而提高了语句矫正的准确率。解决了现有技术中直接用语言模型对日常对话进行矫正得到的结果不准确的技术问题。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种分句方法及其装置、电子设备、计算机可读存储介质。
背景技术
随着自然语言处理技术的发展,为了让计算机能够更加准确地理解人类的自然语言,需要对语句进行矫正,使其更加完整和合理化。
相关技术中,直接用语言模型对日常对话进行矫正,但是日常白话对话往往缺少标点符号,使得直接用语言模型对日常对话进行矫正得到的结果不准确。因此,需要一种能够对相对不规范的日常对话进行重新整理和规范的方法,以便对日常对话进行进一步处理。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种分句方法,以实现通过对文本进行分词处理,根据分词的词性生成整理后的句子,使得整理后的句子更加便于被语言模型进行分析和处理,进而提高语句矫正的准确率。
本发明的第二个目的在于提出一种分句装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本发明第一方面实施例的分句方法,包括:获取待分句的文本;对所述待分句的文本进行分词处理,以生成所述文本对应的分词序列;确定所述分词序列中每个分词的词性;根据每个分词的词性,对所述分词序列进行分句以生成多个句子。
另外,本发明实施例的分句方法,还具有如下附加的技术特征:
可选地,所述分词序列包括所述待分句的文本的中文符号和外文符号,所述对所述待分句的文本进行分词处理,以生成所述文本对应的分词序列,包括:去除所述待分句的文本中的乱码;和/或,将所述待分句的文本中的所述外文符号转化为所述中文符号,其中,所述外文符号包括外文标点符号,所述中文符号包括中文标点符号;以及使用分词算法对所述待分句的文本进行分词处理,以生成所述文本对应的分词序列。
可选地,所述根据每个分词的词性,对所述分词序列进行分句以生成多个句子,包括:根据预先设置的句尾词词性表,从所述每个分词的词性中选择句尾词对应的词性,其中,所述句尾词是指在句子末尾出现的词语;根据所述句尾词对应的词性,在所述文本对应的分词序列中确定所述句尾词;以及根据所述句尾词和/或所述中文标点符号对所述文本对应的分词序列进行分句,以生成多个句子。
可选地,所述根据每个分词的词性,对所述分词序列进行分句以生成多个句子,还包括:判断所述生成的句子是否包含预设词性的词语;若所述生成的句子包含所述预设词性的词语,则在所述生成的句子中预测补充所述预设词性对应的标点符号。
可选地,在所述根据每个分词的词性,对所述分词序列进行分句以生成多个句子之后,还包括:使用分词算法对所述句子进行分词处理,以获取所述句子的分词结果;根据所述句子的分词结果,构建N-Gram语言模型;使用所述N-Gram语言模型对所述句子进行矫正。
可选地,所述使用所述N-Gram语言模型对所述句子进行矫正,包括:使用所述N-Gram语言模型对所述句子进行组词;使用所述N-Gram语言模型对所述句子进行词的预测;使用所述N-Gram语言模型对所述句子进行标点符号的预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811579742.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本特征的综合运用方法
- 下一篇:短信识别方法、装置及电子设备





