[发明专利]一种文本匹配处理方法和装置在审
申请号: | 201911346513.7 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111159339A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 孙宇浩;孙龙超;张斌;唐劭 | 申请(专利权)人: | 北京亚信数据有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 田恩涛;柯宏达 |
地址: | 100193 北京市海淀区西北旺东路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 匹配 处理 方法 装置 | ||
1.一种文本匹配处理方法,其特征在于,该文本匹配处理方法包括:
对待匹配文本进行分词;
对分词结果进行格式转换;
将转换格式后的分词结果进行向量化计算;
根据计算得到的向量,计算待匹配文本的相似度。
2.根据权利要求1所述文本匹配处理方法,其特征在于,所述对分词结果进行格式转换,包括:
对于分词后的结果,将中文格式转换为拼音格式。
3.根据权利要求1所述文本匹配处理方法,其特征在于,所述根据计算得到的向量,计算待匹配文本的相似度,包括:
根据计算得到的词向量计算欧式距离得到待匹配文本的相似度。
4.根据权利要求1所述文本匹配处理方法,其特征在于,该文本匹配处理方法还包括:
相似度大于预设阈值的待匹配文本进行匹配。
5.一种文本匹配处理装置,其特征在于,该文本匹配处理装置包括:文本分词模块、格式转换模块、向量生成模块和相似计算模块,其中,
所述文本分词模块,用于对待匹配文本进行分词;
所述格式转换模块,用于对分词结果进行格式转换;
所述向量生成模块,用于将转换格式后的分词结果进行向量化计算;
所述相似计算模块,用于根据计算得到的向量,计算待匹配文本的相似度。
6.根据权利要求5所述文本匹配处理装置,其特征在于,所述格式转换模块具体用于对于分词后的结果,将中文格式转换为拼音格式。
7.根据权利要求5所述文本匹配处理装置,其特征在于,所述相似计算模块具体用于由获得的向量计算欧式距离得到待匹配文本的相似度。
8.根据权利要求5所述文本匹配处理装置,其特征在于,该文本匹配处理装置还包括:文本匹配模块用于相似度大于预设阈值的待匹配文本进行匹配。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述文本匹配处理方法。
10.一种计算设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述文本匹配处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚信数据有限公司,未经北京亚信数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911346513.7/1.html,转载请声明来源钻瓜专利网。