[发明专利]文本语义识别方法、装置、计算机设备和存储介质有效
| 申请号: | 201910744603.5 | 申请日: | 2019-08-13 |
| 公开(公告)号: | CN110598206B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 卢清明;张然 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06N3/08 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 杨欢 |
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 语义 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及自然语言处理技术领域,提供了一种文本语义识别方法、装置、计算机设备和存储介质。所述方法包括:计算目标文本中文本字符的字向量及每个文本分词的词向量;将每个文本字符的字向量与所属文本分词的词向量进行拼接得到文本字字符的拼接向量;按照文本字符在目标文本的正向出现顺序,将文本字符的字向量及拼接向量依次输入第一神经网络得到第一文本特征;按照文本字符在目标文本的逆向出现顺序,将文本字符对应的字向量及拼接向量依次输入第二神经网络得到第二文本特征;将由第一文本特征与第二文本特征拼接得到的综合文本特征输入至第三神经网络得到目标文本的语义类型。采用本方法提高了文本语义识别的准确率。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及文本语义识别方法、装置、计算机设备和存储介质。
背景技术
随着互联网的发展,文本语义识别技术得到了越来越广泛的应用。尤其是在智能问答领域,为了准确回答用户咨询的问题,通常需要将用户输入的语音转成文本数据,进一步对文本数据进行语义识别,判断文本数据所表达的真实含义,从而准确快速的回答用户所咨询的问题。
在网络平台方面,为了维护网络用语的文明,提升用户的使用体验,通常采用文本语义识别技术对发布在网络上的文本进行语义识别,以此识别出暴力、低俗、敏感话题、商业广告等语义信息的文本。
目前,大部分文本语义分析技术采用关键词匹配方法进行处理,需要预先构建关键词数据库,将待识别的文本与已构建的数据库中的关键词进行匹配以此识别出敏感词,然而对于数据库中未记录的关键词则无法准确识别其语义,也就是说关键词的覆盖范围限制了文本语义识别的准确率,从而使得文本语义识别的准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种文本语义识别方法、装置、计算机设备和存储介质。
一种文本语义识别方法,所述方法包括:
计算目标文本中每个文本字符的字向量及每个文本分词的词向量;
将每个文本字符的字向量与所属文本分词的词向量进行拼接,得到相应文本字字符的拼接向量;
按照文本字符在所述目标文本的正向出现顺序,将多个文本字符对应的字向量及拼接向量依次输入第一神经网络的不同隐层,得到所述目标文本基于正向出现顺序的第一文本特征;
按照文本字符在所述目标文本的逆向出现顺序,将多个文本字符对应的字向量及拼接向量依次输入第二神经网络的不同隐层,得到所述目标文本基于逆向出现顺序的第二文本特征;
将由所述第一文本特征与所述第二文本特征拼接得到的综合文本特征输入至第三神经网络,得到所述目标文本的语义类型。
在其中一个实施例中,所述方法还包括:
获取样本文本;
基于预训练的第一神经网络层提取所述样本文本的字向量及词向量;
对所述字向量和词向量分别进行字符编号;
将所述字向量、词向量以及分别对应的字符编号写入到预设文件;
所述计算文本字符的字向量和文本分词对应的词向量包括:
对每个所述文本字符以及所述文本分词进行字符编号;
基于所述字符编号,在所述预设文件中读取得到每个文本字符对应的字向量以及每个文本分词对应的词向量。
在其中一个实施例中,所述按照文本字符在所述目标文本的正向出现顺序,将多个文本字符对应的字向量及拼接向量依次输入第一神经网络的不同隐层,得到所述目标文本基于正向出现顺序的第一文本特征包括:
按照文本字符在所述目标文本的正向出现顺序,将当前顺序文本字符对应的字向量及拼接向量输入第一神经网络的当前隐层;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910744603.5/2.html,转载请声明来源钻瓜专利网。





