[发明专利]一种文本分词方法及装置在审
| 申请号: | 201910423046.7 | 申请日: | 2019-05-20 |
| 公开(公告)号: | CN110222335A | 公开(公告)日: | 2019-09-10 |
| 发明(设计)人: | 陈诗锦 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分词结果 分词 文本 字符串匹配 文本分词 准确度 输出 申请 | ||
本发明实施例公开了一种文本分词方法及装置,其中方法包括:获取待处理文本;根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。通过本申请,可以实现针对待处理文本的分词准确度。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本分词方法及装置。
背景技术
在语音交互产品普及的时代,语音识别和自然语音处理各自扮演者重要的角色。其中,语音识别是指将语音信号解码成文字信息;自然语言处理是指根据文字信息进行语义解析,获取用户的请求意图,从而满足用户的功能需求。中文分词作为自然语音理解中的重要一步,其准确性直接影响人机交互产品的性能。
所谓分词,是指将句子切分成一个一个单独的词,是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技术的目标就是将一句话切分成一个一个单独的中文词语。
现有技术中,当终端获取到用户的语音信息之后,终端将上述语音信息进行转换,得到待处理文本,然后,终端按照一定的策略将待处理文本中的字符串与预设的字典库中的词条进行匹配,若在预设的字典库中找到某个词条,则意味着匹配成功,此时,获取该词条,进而可以得到该待处理文本的分词结果。然而,在实际应用中,按照一定的策略将待处理文本进行分词的过程中,由于分词过程较为粗糙,具有随机性,导致得到的分词结果不够准确。
在具体实现中,这里所涉及的分词结果不够准确是指:按照一定的策略将待处理文本进行分词的过程中,存在多种分词方式,不同的分词方式可以产生不同的分词结果,在理想状态下,这多个分词结果中有且只有一个最佳的分词结果。以待处理文本为“南方城市南京”为例,预设的字典库中收集的词条包括:南方、南方城、市、城市、南京,那么,在这种情况下,终端对上述待处理文本的分词结果可以包括:南方城/市/南京;也可以包括:南方/城市/南京,其中,理想状态下的最佳分词结果应该为:南方/城市/南京。
那么,如何确定多个分词结果中的最佳分词结果,以提高针对待处理文本的分词准确度是人们研究的热点技术问题。
发明内容
本发明实施例提供一种文本分词方法及装置,可以提高终端针对待处理文本的分词准确度。
第一方面,本发明实施例提供了一种文本分词方法,该方法包括:
获取待处理文本;
根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;
根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;
若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。
可选的,所述方法还包括:
若所述第一分词结果与所述第二分词结果不一致,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。
可选的,所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:
对所述待处理文本进行拆分,得到多个单独的字符;
根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;
确定所述有向无环图中每条路径上的所有词条的权重和;
将所述权重和最小的路径上的词条确定为所述第三分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910423046.7/2.html,转载请声明来源钻瓜专利网。





