[发明专利]一种面向电网调度系统实时调度助手的文本意图识别方法在审
申请号: | 202111413457.1 | 申请日: | 2021-11-25 |
公开(公告)号: | CN113901225A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 杨强;张云菊;郭明;史虎军;张玉罗;司胜文;杜秀举 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 商小川 |
地址: | 550002 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 电网 调度 系统 实时 助手 文本 意图 识别 方法 | ||
1.一种面向电网调度系统实时调度助手的文本意图识别方法,其特征在于:所述方法为:利用LSTM时序学习和长距离关联学习的能力分时刻编码对话文本,然后使用Attention机制将当前时刻和过往每轮对话的向量表示进行融合,加强与过往时刻话术的关联,同时去掉冗余噪声信息,进而得到当前时刻轮话术文本的向量表示,最后将向量输入分类器进行分类。
2.根据权利要求1所述的一种面向电网调度系统实时调度助手的文本意图识别方法,其特征在于:对原始数据集采取去除停用词、去除标点符号和不可见字符、去除低频词数据预处理操作,将原始数据集文本信息表示成数字形式。
3.根据权利要求2所述的一种面向电网调度系统实时调度助手的文本意图识别方法,其特征在于:采用文本词语的TF-IDF权重的形式将对话文本的数字化表示。
4.根据权利要求1所述的一种面向电网调度系统实时调度助手的文本意图识别方法,其特征在于:利用LSTM时序学习和长距离关联学习的能力分时刻编码对话文本的方法包括:
将调令员和受令员调度交互作业实时过程形式化定义如下:已标注的训练数据集中涉及到的所有对话文本的唯一标识符组成集合U;
对于U中的每一个对话ui,对话中调令员和受令员说的每一段话表示为一个时空序列Ti,序列Ti中的每一个元素均包含一个时间点k和调令员或受令员说的某一段话;
基于调令员和受令员实时调度对话的时序特性,采用LSTM序列对当前轮对话进行编码;首先,将每个多轮对话建模成一个时序序列,再将带训练的每一轮对话以及其过往每个时刻的TF-IDF权重信息输入到LSTM单元中;
针对调令员和受令员实时调度对话i,对于时间序列Ti中时间为k的这一轮对话,使用TF-IDF权重信息进行向量化表示;设置固定长度的LSTM输入序列,LSTM输入序列的长度大于所有训练数据多轮对话的轮数,在训练每一轮的对话的时候,将当前轮文本向量化信息以及过往的每一时刻的对话话术向量化信息按时间顺序依次输入,其中每个LSTM单元的输出监督数据为下一轮对话文本的向量,而当前时刻的之后的每一轮对话话术数字化信息都赋值为0;如序列代表一个长为n的多轮对话话术文本序列,其中代表第i个调令员和受令员说实时调度对话在第k轮的对话话术;如果后续分类解码过程中,多轮对话轮数大于LSTM输入序列的长度,就从调令员和受令员说实时调度对话的当前轮对话往前取到和LSTM序列的长度的轮数,再之前多出的轮数不再考虑。
5.根据权利要求4所述的一种面向电网调度系统实时调度助手的文本意图识别方法,其特征在于:对于Ti中的每个元素均使用二维向量来作为该点的表示向量,并按顺序将输入第k个LSTM单元中,时刻之后的数据全部赋值为0;对于第k个LSTM单元,其监督数据为
LSTM内部迭代公式如下:
遗忘门部分
kk=ck-1⊙fk
输入门部分
jk=gk⊙ik
ck=jk+kk
输出门部分
基于训练数据迭代计算得到预训练后的LSTM网络,再将需要编码的某一轮对话按上述方法输入LSTM网络中。
6.根据权利要求1所述的一种面向电网调度系统实时调度助手的文本意图识别方法,其特征在于:使用Attention机制对每个时刻的对话文本隐向量进行融合得到最终的多轮对话表示,在注意力模型中,根据每一轮对话的特征对目标任务分类的重要程度计算其注意力分数,将其作为每一轮对话特征的权重,对所有对话文本隐向量表示进行加权平均计算作为感知到的多轮对话特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111413457.1/1.html,转载请声明来源钻瓜专利网。