[发明专利]一种分词方法和装置在审
| 申请号: | 201910537844.2 | 申请日: | 2019-06-20 |
| 公开(公告)号: | CN111767722A | 公开(公告)日: | 2020-10-13 |
| 发明(设计)人: | 吴泳彤;张启祥;李尊敬;张恩科;刘建家;程少华;李洋;侯磊 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/903 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 王志远;赵迪 |
| 地址: | 100086 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分词 方法 装置 | ||
本发明公开了一种分词方法和装置,涉及仓储物流技术领域。该方法的一具体实施方式包括:获取待分词地址信息;根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库表包括词内容信息、与词内容信息相对应的词属性信息;根据所述待匹配词与词属性信息确定所述地址信息的分词结果。该实施方式能够基于已有省市构建的可靠的标准地址名称词库进行初步识别,再基于特征字词库和训练好的规则模型进行二次识别,并且还可以根据分词结果对特征字词库进行更新。不仅识别快速准确,还提高了可扩展性。
技术领域
本发明涉及仓储物流领域,尤其涉及一种分词方法和装置。
背景技术
目前,地理信息技术在购物营销、智能出行、物流配送等场景中的应用越来越广泛,而中文分词技术起到了关键性作用,如:在物流配送中,准确的识别用户收货地址,便于配送员高效的配送。目前中文分词主要包括两类:基于字符串匹配和基于规则的匹配方法。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有分词方法都有其缺陷:
1)基于字符串匹配的方法对词库依赖很大,实际中总有新地址出现,词库不可能覆盖全面、包含所有的字符串;同时,当词库数据量过大后,查询比较的效率低下;再者,实际地址由用户自行填写,存在错别字、缩略语等,标准词库中并不存在,会导致匹配失败;
2)基于规则的匹配方法较为理想和严格,完全依赖于规则,而实际地址由用户自行填写,完全根据自己的认知描述,存在地址不完整、格式不规范等问题,导致基于规则匹配会出现部分地址无法识别的情况。
发明内容
有鉴于此,本发明实施例提供一种分词方法和装置,能够基于已有省市构建的可靠的标准地址名称词库进行初步识别,再基于特征字词库和训练好的规则模型进行二次识别,并且还可以根据分词结果对特征字词库进行更新。不仅识别快速准确,还提高了可扩展性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种分词方法,包括:
获取待分词地址信息;
根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库表包括词内容信息、与词内容信息相对应的词属性信息;
根据所述待匹配词与词属性信息确定所述地址信息的分词结果。
可选地,所述预设的词库表包括:地址名称词库,特征字词库;
根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息,包括:
根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息;
根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息;
以第一待匹配词、第一待匹配词的词属性信息、第二待匹配词、第二待匹配词的词属性信息共同作为所述待分词地址中的待匹配词以及所述待匹配词的词属性信息。
可选地,根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息,包括:
将所述地址名称词库中的词内容信息,与所述待分词地址信息相匹配,以匹配成功的字符串作为第一待匹配词;
在所述地址名称词库的中查找与第一待匹配词相对应的词属性信息,作为第一待匹配词的词属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910537844.2/2.html,转载请声明来源钻瓜专利网。





