[发明专利]一种基于模糊匹配的厂家名称规范方法在审
申请号: | 201910602611.6 | 申请日: | 2019-07-05 |
公开(公告)号: | CN110321351A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 彭晶;吴盛;段雨廷;李昊;王科;谭向宇;邓云坤;马仪;陈宇民;耿英三;王建华;刘志远;闫静 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 名称关键词 搜索结果 搜索 模糊匹配 名称规范 系统数据 录入 删除 规范化 申请 | ||
本发明公开了一种基于模糊匹配的厂家名称规范方法,首先获取厂家名称关键词,之后利用模糊匹配方法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果,如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果,如果所述搜索库中不存在与所述厂家名称关键词相对应的搜索结果,则删除所述厂家名称关键词。通过将输入的厂家名称关键词与搜索库中的内容进行对比,判断搜索库中是否有相对应的搜索结果,输入的厂家名称关键词是否准确,利用本申请的方法能够批量识别不准确的生产厂家名称并使其规范化,提高系统数据的准确性。
技术领域
本发明涉及文本识别技术领域,特别涉及一种基于模糊匹配的厂家名称规范方法。
背景技术
随着电力设备的广泛使用,电力系统中累积数量庞大的设备台账历史信息。要对设备进行更好的维护,其生产厂家是一个重点关注项目。然而,因为录入错误及年代久远等原因,这其中又有相当数量设备的生产厂家信息并不准确。因此,如何批量识别哪些设备的生产厂家名称不准确并使其规范化,成为工作人员面临的首要问题。
发明内容
本发明的目的旨在克服现有技术存在的不足,提供了一种基于模糊匹配的厂家名称规范方法,能够批量识别不准确的生产厂家名称并使其规范化,提高系统数据的准确性。
为了解决上述技术问题本发明提供一种基于模糊匹配的厂家名称规范方法,所述方法包括:
获取厂家名称关键词;
利用模糊匹配法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果;
如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果;
如果所述搜索库中不存在与所述厂家名称关键词相对应的搜索结果,则删除所述厂家名称关键词。
优选的,所述获取厂家名称关键词,包括:
获取厂家名称原词组;
利用分词工具对所述厂家名称原词组进行分词处理;
删除所述厂家名称原词组中干扰词和干扰词组合,得到剩余词;
按照原顺序连接所述剩余词,得到厂家名称关键词。
优选的,所述干扰词包括股份、有限、责任以及公司,所述干扰词组合包括任意两个干扰词或任意三个干扰词或四个干扰词的组合词组。
优选的,所述厂家名称关键词包括系统厂家名称关键词或用户输入厂家名称关键词。
优选的,所述搜索库包括:厂家名称信息库、权威企业信息网站以及搜索引擎。
优选的,所述厂家名称信息库包括:厂家名称表和台账数据表,所述厂家名称表包括厂家名称和索引,所述索引指向所述台账数据表。
优选的,所述台账数据表为哈希表。
优选的,所述利用模糊匹配方法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果包括:
利用模糊匹配法依次在所述厂家名称信息库、所述权威企业信息网站以及所述搜索引擎中搜索所述厂家名称关键词;
所述如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果包括:
如果所述厂家名称信息库中存在与所述厂家名称关键词相对应的搜索结果,则将所述搜索结果添加到对应的台账数据表;
如果所述厂家名称信息库中不存在与所述厂家名称关键词相对应的搜索结果且所述权威企业信息网站中或者所述搜索引擎中存在与所述厂家名称关键词相对应的搜索结果,则将所述搜索结果添加到厂家名称信息库中,以及创建新的台账数据表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910602611.6/2.html,转载请声明来源钻瓜专利网。