[发明专利]一种生成分词结果的方法及装置有效
申请号: | 201610671511.5 | 申请日: | 2016-08-15 |
公开(公告)号: | CN107766317A | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 韦安军 | 申请(专利权)人: | 南京中兴新软件有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 工业和信息化部电子专利中心11010 | 代理人: | 于小凤 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 分词 结果 方法 装置 | ||
技术领域
本发明涉及分词算法,特别是涉及一种生成分词结果的方法及装置。
背景技术
目前,传统的分词器主要以分词结果的准确率为基准,只产生一种最准确的结果,但在中文的环境下,同样一句话可能会有多重意义,因此无论多么准确的分词算法,也会存在分不出用户期望的分词结果的情况。故提供多种可能的分词结果,更加顺应实际需要,使后续机器学习句法分析等操作成为可能。
目前国外研究的分词算法中没有专门对应中文的算法,大多都是适用于多种语言的算法。这种分词算法尽管已经有可观的准确率,但因为中文本身是一种变化很多的语言,表达的复杂度较高,这些分词算法很难达到高准确率要求。
发明内容
本发明提供一种生成分词结果的方法及装置,用以解决现有技术中分词算法仅给出一种结果,无法满足实际需求的问题。
根据本发明的一个方面,提供了一种生成分词结果的方法,包括:将句子进行分词,得到多个词语;使用多个词语进行组合,得到组合成句子的至少一个词语组合,将至少一个词语组合中的词语的集合确定为句子的分词结果。
其中,使用多个词语进行组合,得到组合成句子的至少一个词语组合,将至少一个词语组合中的词语的集合确定为句子的分词结果,包括:将多个词语按照各词语在句子中的位置进行排序,记录每个词语在句子中的开始以及结束分割位置;从位于句子末尾的词语开始,依次从排序后的多个词语中查找与当前词语相邻且开始以及结束分割位置均不同的词语,依次记录查找到的词语,得到第一词语组合;使用第一词语组合中位于句子首位的第一首位词语,从第一首位词语开始,依次从排序后的多个词语中查找与当前词语相邻,且开始以及结束分割位置均不同的词语,依次记录查找到的词语,得到第二词语组合;将第一词语组合以及第二词语组合的交集确定为句子的分词结果。
其中,使用多个词语进行组合,得到组合成句子的至少一个词语组合,将至少一个词语组合中的词语的集合确定为句子的分词结果,包括:将多个词语按照各词语在句子中的位置进行排序,记录每个词语在句子中的开始以及结束分割位置;从位于句子末尾的词语开始,依次从排序后的多个词语中查找与当前词语相邻且开始以及结束分割位置均不同的词语,依次记录查找到的词语,得到第三词语组合;当第三词语组合中存在两个开始以及结束位置均相同的词语,则删除第三词语组合中最后记录的一个词语;使用第三词语组合中位于句子首位的第二首位词语,从第二首位词语开始,依次从排序后的多个词语中查找与当前词语相邻,且开始以及结束分割位置均不同的词语,依次记录查找到的词语,得到第四词语组合;将第三词语组合以及第四词语组合的交集确定为句子的分词结果。
其中,使用多个词语进行组合,得到组合成句子的至少一个词语组合,将至少一个词语组合中的词语的集合确定为句子的分词结果,包括:按照多个词语在句子中的位置的顺序,将多个词语存储于树形结构中;记录每个词语在句子中的开始以及结束分割位置;从树形结构的各叶子节点向根节点查找与当前叶子节点存储的词语相邻且开始以及结束分割位置均不同的词语,依次记录查找到的词语,得到多个词语组合;将得到的多个词语组合的交集确定为句子的分词结果。
其中,将句子进行分词,得到多个词语,包括:将句子基于预设词典进行分词,得到多个词语。
根据本发明的第二个方面,提供了一种生成分词结果的装置包括:分词模块,用于将句子进行分词,得到多个词语;组合模块,用于使用多个词语进行组合,得到组合成句子的至少一个词语组合,将至少一个词语组合中的词语的集合确定为句子的分词结果。
其中,上述组合模块包括:第一排序单元,用于将多个词语按照各词语在句子中的位置进行排序,记录每个词语在句子中的开始以及结束分割位置;第一查找单元,用于从位于句子末尾的词语开始,依次从排序后的多个词语中查找与当前词语相邻且开始以及结束分割位置均不同的词语,依次记录查找到的词语,得到第一词语组合;第二查找单元,用于使用第一词语组合中位于句子首位的第一首位词语,从第一首位词语开始,依次从排序后的多个词语中查找与当前词语相邻,且开始以及结束分割位置均不同的词语,依次记录查找到的词语,得到第二词语组合;第一确定单元,用于将第一词语组合以及第二词语组合的交集确定为句子的分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中兴新软件有限责任公司,未经南京中兴新软件有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610671511.5/2.html,转载请声明来源钻瓜专利网。