[发明专利]一种分层机构名称多维匹配方法、装置、设备及存储介质在审
| 申请号: | 202211305393.8 | 申请日: | 2022-10-24 |
| 公开(公告)号: | CN115858878A | 公开(公告)日: | 2023-03-28 |
| 发明(设计)人: | 马明;李博;李静 | 申请(专利权)人: | 《中华医学杂志》社有限责任公司 |
| 主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F40/194;G06F40/295 |
| 代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 杨国瑞 |
| 地址: | 100000 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分层 机构名称 多维 匹配 方法 装置 设备 存储 介质 | ||
本发明公开了一种分层机构名称多维匹配方法、装置、设备及存储介质,涉及自然语言处理技术领域。所述方法是先获取待匹配分层机构名称与各个标准分层机构名称的搜索相关度、字符串相似度和地域相似度,然后采用线性加权模型在搜索相关度、字符串相似度和地域相似度等维度上进行多维融合,得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度,最后将与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出,如此在匹配过程中,不但会考虑词频‑逆文档特征,还会考虑机构名的文本固有特征及组成机构名的各个词的地域位置关系,进而可以显著提高匹配准确率,并且无需建模,可降低成本。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种分层机构名称多维匹配方法、装置、设备及存储介质。
背景技术
在自然语言处理的文本数据分析领域中,常见需要对机构(例如医疗机构和医学研究机构等)名称进行对齐:医学期刊出版的学术论文都会带有文章作者所属的机构名称,这些名称可能是该机构的规范名称也可能是作者随笔输入的。假如需要归一化所有的机构名称,或者需要通过这些机构名称来关联第三方机构的相关数据(以便进行进一步的数据汇总和分析),那么如何将实际上是同一机构但其名称可能略有不同的至少两个机构名称进行关联,就成为了一个必须要解决的问题。
目前,业界解决上述问题的现有方案一般有如下三种:基于文本搜索的方案、基于机器学习或者编辑距离的方案和基于人工比对和校准的方案。
基于文本搜索的方案主要是先建立机构名称的数据集,然后将待匹配的机构名称以文本搜索的方式在机构名称数据集中进行搜索和匹配,最后把搜索结果中排名第一的机构名称作为匹配结果。但是这种方案的显著缺点就是正确率较低。因为目前的搜索系统主流是依赖诸如BM25算法的TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文档频率)模型(其主要原理是:在词频方面,如果某个搜索词在被搜索文档中出现了多次,那么该文档匹配本次搜索的分数会增加;而在逆文档频率方面,如果成功匹配的搜索词在所有文档中出现的次数非常少,那么所匹配的文档的分数也会增加),使得在机构名称匹配这个问题上,TF-IDF模型显然有所不足:(11)机构匹配搜索的是待匹配的机构名称,标准数据集所包含的文本数据也只有机构名称,词频特征会失效;(12)逆文档频率在文本内容较长的情况下表现良好,但在机构名称这种短语文本上效果会下降;(13)机构名称一般具有分层组织结构特点(例如有省级人民医院、市级人民医院和县级人民医院等三个层次),使得经分词后所得到的多个检索词,如果其中某个词在标准数据集中出现的次数比较少,很可能是该词本身在机构名称中出现得比较少,并不一定说明该词比较重要,例如机构名称中所包含的且带有地域特征的词很可能在标准数据集中出现多次,但不能说明这些词不重要。
基于机器学习或者编辑距离的方案经常被用来辅助文本分析问题,如果用在机构名称匹配这个问题上,该方案会根据机构名称的词向量特征结合诸如编辑距离等字符串比对特征建立一个分类学习模型。但是这种方案也有如下缺点:(21)构建模型成本高,监督式学习模型需要大量已标注的数据,这些数据一般来说需要人工标注。雇佣自然语言处理方面的数据科学家来完成模型构建和推理流程,价格不菲;(22)模型的效果不稳定,需要反复迭代,很容易出现过拟合的现象;(23)模型不易扩展,一旦需要应用于其他同类问题,整体模型需要重建。
基于人工比对和校准的方案的缺点显然就是费时费力,且无法复用以解决同类问题。
发明内容
本发明的目的是提供一种分层机构名称多维匹配方法、装置、计算机设备及计算机可读存储介质,用以解决现有分层机构名称匹配方案所存在正确率较低、构建模型成本高、模型的效果不稳定、模型不易扩展以及人工费时费力的问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,提供了一种分层机构名称多维匹配方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于《中华医学杂志》社有限责任公司,未经《中华医学杂志》社有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211305393.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车用防弹膜
- 下一篇:一种确定炭浆厂提炭时间的方法





