[发明专利]一种文本分词方法及装置在审

申请号：	201910423046.7	申请日：	2019-05-20
公开（公告）号：	CN110222335A	公开（公告）日：	2019-09-10
发明（设计）人：	陈诗锦	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;熊永强
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词结果分词文本字符串匹配文本分词准确度输出申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本分词方法及装置，其中方法包括：获取待处理文本；根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词，得到第一分词结果；根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词，得到第二分词结果；若所述第一分词结果与所述第二分词结果一致，输出所述第一分词结果或所述第二分词结果。通过本申请，可以实现针对待处理文本的分词准确度。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本分词方法及装置。

背景技术

在语音交互产品普及的时代，语音识别和自然语音处理各自扮演者重要的角色。其中，语音识别是指将语音信号解码成文字信息；自然语言处理是指根据文字信息进行语义解析，获取用户的请求意图，从而满足用户的功能需求。中文分词作为自然语音理解中的重要一步，其准确性直接影响人机交互产品的性能。

所谓分词，是指将句子切分成一个一个单独的词，是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例，分词技术的目标就是将一句话切分成一个一个单独的中文词语。

现有技术中，当终端获取到用户的语音信息之后，终端将上述语音信息进行转换，得到待处理文本，然后，终端按照一定的策略将待处理文本中的字符串与预设的字典库中的词条进行匹配，若在预设的字典库中找到某个词条，则意味着匹配成功，此时，获取该词条，进而可以得到该待处理文本的分词结果。然而，在实际应用中，按照一定的策略将待处理文本进行分词的过程中，由于分词过程较为粗糙，具有随机性，导致得到的分词结果不够准确。

在具体实现中，这里所涉及的分词结果不够准确是指：按照一定的策略将待处理文本进行分词的过程中，存在多种分词方式，不同的分词方式可以产生不同的分词结果，在理想状态下，这多个分词结果中有且只有一个最佳的分词结果。以待处理文本为“南方城市南京”为例，预设的字典库中收集的词条包括：南方、南方城、市、城市、南京，那么，在这种情况下，终端对上述待处理文本的分词结果可以包括：南方城/市/南京；也可以包括：南方/城市/南京，其中，理想状态下的最佳分词结果应该为：南方/城市/南京。

那么，如何确定多个分词结果中的最佳分词结果，以提高针对待处理文本的分词准确度是人们研究的热点技术问题。

发明内容

本发明实施例提供一种文本分词方法及装置，可以提高终端针对待处理文本的分词准确度。

第一方面，本发明实施例提供了一种文本分词方法，该方法包括：

获取待处理文本；

根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词，得到第一分词结果；

根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词，得到第二分词结果；

若所述第一分词结果与所述第二分词结果一致，输出所述第一分词结果或所述第二分词结果。

可选的，所述方法还包括：

若所述第一分词结果与所述第二分词结果不一致，通过动态规划算法对所述待处理文本进行分词，得到第三分词结果。

可选的，所述通过动态规划算法对所述待处理文本进行分词，得到第三分词结果，包括：

对所述待处理文本进行拆分，得到多个单独的字符；