[发明专利]一种分词方法和装置在审
| 申请号: | 201910537844.2 | 申请日: | 2019-06-20 |
| 公开(公告)号: | CN111767722A | 公开(公告)日: | 2020-10-13 |
| 发明(设计)人: | 吴泳彤;张启祥;李尊敬;张恩科;刘建家;程少华;李洋;侯磊 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/903 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 王志远;赵迪 |
| 地址: | 100086 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分词 方法 装置 | ||
1.一种分词方法,其特征在于,包括:
获取待分词地址信息;
根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库表包括词内容信息、与词内容信息相对应的词属性信息;
根据所述待匹配词与词属性信息确定所述地址信息的分词结果。
2.根据权利要求1所述的方法,其特征在于,所述预设的词库表包括:地址名称词库,特征字词库;
根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息,包括:
根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息;
根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息;
以第一待匹配词、第一待匹配词的词属性信息、第二待匹配词、第二待匹配词的词属性信息共同作为所述待分词地址中的待匹配词以及所述待匹配词的词属性信息。
3.根据权利要求2所述的方法,其特征在于,根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息,包括:
将所述地址名称词库中的词内容信息,与所述待分词地址信息相匹配,以匹配成功的字符串作为第一待匹配词;
在所述地址名称词库的中查找与第一待匹配词相对应的词属性信息,作为第一待匹配词的词属性信息。
4.根据权利要求2所述的方法,其特征在于,根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息,包括:
将所述特征字词库中的词内容信息,与待分词地址信息中除去第一待匹配词后的剩余信息相匹配,以匹配成功的字符串作为中间待匹配词;
根据训练好的分词规则模型,将中间待匹配词进行合并标记,确定第二待匹配词,以及第二待匹配词的词属性信息。
5.根据权利要求2所述的方法,其特征在于,在确定分词结果信息之后,还包括:
根据所述分词结果信息确定所述待分词地址信息中的关键地址词;
基于地图信息,确定所述关键地址词的准确度;
将所述准确度不小于预设阈值的关键地址词更新到所述地址名称词库中。
6.一种分词装置,其特征在于,包括:
获取模块,用于获取待分词地址信息;
识别模块,用于根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库表包括词内容信息、与词内容信息相对应的词属性信息;
确定模块,用于根据所述待匹配词与词属性信息确定所述地址信息的分词结果。
7.根据权利要求6所述的装置,其特征在于,所述预设的词库表包括:地址名称词库,特征字词库;
所述识别模块根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息,包括:
根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息;
根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息;
以第一待匹配词、第一待匹配词的词属性信息、第二待匹配词、第二待匹配词的词属性信息共同作为所述待分词地址中的待匹配词以及所述待匹配词的词属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910537844.2/1.html,转载请声明来源钻瓜专利网。





