[发明专利]一种文本处理方法、装置以及相关设备有效
申请号: | 201910277438.7 | 申请日: | 2019-04-08 |
公开(公告)号: | CN110069631B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 陈曦;赖盛章;曹行;张淳;乔倩倩 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/903;G06F40/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 以及 相关 设备 | ||
本发明实施例公开了一种文本处理方法、装置以及相关设备,方法包括:获取目标文本,并获取知识图谱;知识图谱包括多个实体字符串,以及与每个实体字符串对应的业务属性字符串;在多个实体字符串中查找与目标文本匹配的目标实体字符串,并提取与目标实体字符串对应的目标业务属性字符串;根据目标实体字符串和目标业务属性字符串识别与目标文本匹配的目标意图类型;从目标实体字符串中确定与目标意图类型相关联的目标意图字符串,并根据目标意图字符串生成推荐业务数据。采用本发明,可以提高获取业务数据的效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本处理方法、装置以及相关设备。
背景技术
随着信息技术的飞速发展,用户足不出户在互联网上就可以实现远程挂号。然而对于大多数用户来说,自己应该挂哪一个科室,做什么检查等,往往是通过自己以往的经验,或者通过自己的症状查询相关资料来确定的。用户自我诊断后,在互联网上找到对应的医院以及科室挂号预约。
然而由于用户自我诊断时的非专业性,造成挂号科室与用户的症状并不匹配,导致用户需要进行多次挂号操作、以及多次看诊后才可以找到与症状最匹配的科室,进而降低用户找到正确科室的效率。
发明内容
本发明实施例提供一种文本处理方法、装置以及相关设备,可以提高获取业务数据的效率。
本发明实施例一方面提供了一种文本处理方法,包括:
获取目标文本,并获取知识图谱;所述知识图谱包括多个实体字符串,以及与每个实体字符串对应的业务属性字符串;
在所述多个实体字符串中查找与所述目标文本匹配的目标实体字符串,并提取与所述目标实体字符串对应的目标业务属性字符串;
根据所述目标实体字符串和所述目标业务属性字符串识别与所述目标文本匹配的目标意图类型;
从所述目标实体字符串中确定与所述目标意图类型相关联的目标意图字符串,并根据所述目标意图字符串生成推荐业务数据。
其中,所述在所述多个实体字符串中查找与所述目标文本匹配的目标实体字符串,包括:
从所述目标文本中提取目标关键词;
将所述目标关键词映射为图谱标注实体字符串;
从所述多个实体字符串中查找与所述图谱标注实体字符串相同的实体字符串,作为与所述目标文本匹配的目标实体字符串。
其中,所述从所述目标文本中提取目标关键词,包括:
将所述目标文本划分为多个目标单位字符,并将每个目标单位字符转换为目标单位字符向量;
基于第一循环神经网络模型中的编码层,将多个目标单位字符向量进行双向循环编码,得到正向编码矩阵和反向编码矩阵;
将所述正向编码矩阵和所述反向编码矩阵拼接为隐藏状态矩阵;
基于所述第一循环神经网络中的条件随机场,对所述隐藏状态矩阵进行序列标注,确定所述每个目标单位字符分别对应的词性标签;
根据所述每个目标单位字符分别对应的词性标签,确定所述目标关键词。
其中,所述将所述目标关键词映射为图谱标注实体字符串,包括:
将所述目标关键词划分为多个关键单位字符,并将每个关键单位字符转换为关键单位字符向量;
基于第二循环神经网络模型中的编码层,将多个关键单位字符向量进行编码,得到所述目标关键词的上下文向量;
基于所述第二循环神经网络模型中的解码层,将所述上下文向量进行解码,得到所述上下文向量的隐藏状态向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910277438.7/2.html,转载请声明来源钻瓜专利网。