[发明专利]一种对话系统语义分析方法、系统、电子装置及存储介质在审
| 申请号: | 202111271655.9 | 申请日: | 2021-10-29 |
| 公开(公告)号: | CN114036272A | 公开(公告)日: | 2022-02-11 |
| 发明(设计)人: | 江豪;肖龙源;李稀敏;李威 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F16/33;G06F40/289;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 叶雪芳 |
| 地址: | 361009 福建省厦门市软件*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 对话 系统 语义 分析 方法 电子 装置 存储 介质 | ||
1.一种对话系统语义分析方法,其特征在于,包括以下步骤:
步骤a.获取对话数据,并进行预处理得到待训练的语料信息;
步骤b.采用所述待训练的语料信息训练word2vec模型;
步骤c.基于所述word2vec模型构建语义分析模型;
步骤d.将待分析语料信息输入至所述语义分析模型中,所述语义分析模型包括word2vec嵌入层、BiLSTM层、CDW层和线性分类层;具体语义分析过程包括如下步骤:
d1.所述word2vec嵌入层提取所述待分析语料信息的词向量信息,所述BiLSTM层用于获取待分析语料的上下文信息;
d2.所述CDW层根据所述待分析语料的词向量信息和上下文信息获取所述待分析语料的语义信息;
d3.所述线性分类层根据所述语义信息进行分类,得到二分类结果1或0作为语义分析结果,其中1代表主动问询,0代表被动回答。
2.根据权利要求1所述的一种对话系统语义分析方法,其特征在于:所述预处理包括去除停用词、去除无用字符和去除表情符号。
3.根据权利要求1所述的一种对话系统语义分析方法,其特征在于:所述步骤b包括如下步骤:
b1.采用NER算法对预处理后的所述待训练的语料信息进行实体识别,确定所述待训练的语料信息中所包含的实体;
b2.采用Jieba分词对预处理后的所述语料信息进行分词,并统计分词结果的词频T;
b3.将分词结果中未识别出的实体进行手动合并,并保留;
b4.采用Gensim包训练并保存word2vec模型。
4.根据权利要求3所述的一种对话系统语义分析方法,其特征在于:所述步骤b中,仅针对所述词频T≥5的分词结果进行训练。
5.根据权利要求1所述的一种对话系统语义分析方法,其特征在于:所述语义分析模型还包括Dropout层和LayerNorm层;
所述待分析语料信息依次经过word2vec嵌入层、Dropout层、BiLSTM层、LayerNorm层、CDW层和线性分类层。
6.根据权利要求5所述的一种对话系统语义分析方法,其特征在于:所述步骤d2,具体包括如下步骤:
d21.计算每个字的第一权重uit,
uit=tanh(Wwhit+bw);
其中,i表示第i句话,t表示第i句话中的第t个字符,hit为第i句话中的第t个字符经过所述LayerNorm层后的输出,Ww为hit对应的权重,bw为hit对应的偏置;
d22.计算每个字与中心词的距离关系SRDit,
其中,Pa为所述中心词的位置,所述中心词为第i句中所包含的症状、疾病或检查实体其中之一,m为阈值;
d23.基于阈值参数σ和每个字与中心词的距离关系SRDit,得到每个字的′
第二权重uit,
其中,n为第i句的句子长度;
d24.计算整个句子的特征向量si,
其中,θit为第i句话中的第t个字符对于语义信息的贡献程度;
d25.根据所述整个句子的特征向量si,得到二分类结果,1代表为主动问询,0代表被动回答。
7.根据权利要求6所述的一种对话系统语义分析方法,其特征在于:所述阈值m为10,所述阈值参数σ为5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111271655.9/1.html,转载请声明来源钻瓜专利网。





