[发明专利]一种文本匹配处理方法和装置在审
申请号: | 201911346513.7 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111159339A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 孙宇浩;孙龙超;张斌;唐劭 | 申请(专利权)人: | 北京亚信数据有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 田恩涛;柯宏达 |
地址: | 100193 北京市海淀区西北旺东路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 匹配 处理 方法 装置 | ||
本公开提供了一种文本匹配处理方法和装置,该文本匹配处理方法包括:对待匹配文本进行分词;对分词结果进行格式转换,将中文格式转换为拼音格式;将转换格式后的分词结果进行向量化计算;根据计算得到的向量,计算待匹配文本的相似度。本公开解决了在医学领域中现有的常规分词、做词距的方法,准确率低、通用性差的问题。并且本公开的匹配方法准确程度大幅度提高,效率也大幅度提升。
技术领域
本公开涉及数据处理技术领域,特别涉及一种文本匹配处理方法和装置。
背景技术
目前,自然语言处理是人工智能领域内的一个困难重重同时引人注目的研究课题,理想结果就是能够使计算机像人那样理解、分析自然语言,从而解决文本分类、句法分析、语义理解、情感识别、语义推理等实际问题。
在做词表字段匹配时,用常规的分词方法、做词距的方法,对生活领域的字段匹配效果较好。而在医学领域,对于海量的医学专有名词词表,常规的方法词表映射的准确率并不是很高,对于严谨的医学领域,常常出现匹配错误的情况是亟需解决的。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种文本匹配处理方法和装置,解决了在医学领域,匹配结果差,效率低的问题。
第一方面,本公开提供了一种文本匹配处理方法,该文本匹配处理方法包括:
对待匹配文本进行分词;
对分词结果进行格式转换;
将转换格式后的分词结果进行向量化计算;
根据计算得到的向量,计算待匹配文本的相似度。
可选地,所述对分词结果进行格式转换,包括:
对于分词后的结果,将中文格式转换为拼音格式。
可选地,所述根据计算得到的向量,计算待匹配文本的相似度,包括:
根据计算得到的词向量计算欧式距离得到待匹配文本的相似度。
可选地,该文本匹配处理方法还包括:
相似度大于预设阈值的待匹配文本进行匹配。
第二方面,本公开提供了一种文本匹配处理装置,文本匹配处理装置包括:文本分词模块、格式转换模块、向量生成模块和相似计算模块,其中,
所述文本分词模块,用于对待匹配文本进行分词;
所述格式转换模块,用于对分词结果进行格式转换;
所述向量生成模块,用于将转换格式后的分词结果进行向量化计算;
所述相似计算模块,用于根据计算得到的向量,计算待匹配文本的相似度。
可选地,所述格式转换模块具体用于对于分词后的结果,将中文格式转换为拼音格式。
可选地,所述相似计算模块具体用于由获得的向量计算欧式距离得到待匹配文本的相似度。
可选地,该文本匹配处理装置还包括:文本匹配模块用于相似度大于预设阈值的待匹配文本进行匹配。
第三方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述文本匹配处理方法。
第四方面,本公开提供了一种计算设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述文本匹配处理方法。
与现有技术相比,本公开至少具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚信数据有限公司,未经北京亚信数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911346513.7/2.html,转载请声明来源钻瓜专利网。