[发明专利]基于中文命名实体识别的机器人语言指令分析方法及系统有效
申请号: | 202110236088.7 | 申请日: | 2021-03-03 |
公开(公告)号: | CN112883737B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 许庆阳;姜聪;周瑞;李贻斌;张承进;宋勇;袁宪锋;庞豹 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/253;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 |
地址: | 264209 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中文 命名 实体 识别 机器人 语言 指令 分析 方法 系统 | ||
1.基于中文命名实体识别的机器人语言指令分析方法,其特征在于,包括:
基于输入指令内容获取中文文本信息;所述输入指令包括语音输入指令或者中文文本输入指令;
提取文本特征并进行特征增强,具体包括:
给定一个句子输出的特征序列集合为:其中,为汉字序列,为句子对应的拼音序列,为偏旁序列,为词性序列,为词边界序列;在特征嵌入的过程中,将没有经过预训练的词向量嵌入模型;特征嵌入方式表示为:
其中,表示某一汉字包含所有特征信息的原始输入序列,d表示特征的维度;函数表示基于统计字典的编码映射;为线性变换的权重矩阵,为偏差向量;
将增强后的特征输入自监督中文命名体实体识别模型,产生每个汉字归属于每个命名实体类别的分数,构造重定位矩阵,根据重定位矩阵产生“复述”指令并将其用于实体类别推理,通过自监督的方式输出每个汉字的命名实体类别属性;
其中,所述命名体实体识别模型包括两层双向LSTM网络,每层网络包括若干LSTM核,每个LSTM核具有一般结构:由三个门控制信息的输入比例及前一周期的遗忘比例;基于上述结构的模型对输入进行处理,产生每个汉字对应命名实体的分数序列其中0≤i≤n,d表示命名实体类别的数量;
对所有的得分序列进行整合,得到输入句子对应命名实体类别的分数矩阵
基于分数矩阵得到位置矩阵:其中,函数表示位置信息抽取,表示对非目标命名实体影响力进行抑制之后的分数矩阵;
使用位置信息矩阵对输入指令语句进行重新构造获得“复述”指令;
通过在基础反向传播方法中添加设定的规则,使得命名体实体识别模型能够在自监督闭环中无明确学习方向的情况下,通过输入指令与“复述”指令之间的差异进行学习,从而实现命名实体识别;所述设定的规则包括:对原始分数矩阵中非目标命名实体的影响力进行抑制,以使命名体实体识别模型能够根据离散形式的位置信息矩阵进行学习;表示为:
在自监督学习范式中为模型增加平衡规则以使其保持稳定,其实现如下:
其中,α为平衡因子,表示线性整流单元,表示维度为n×d的常量矩阵,其元素为1;
基于提取到的命名实体驱动机器人执行相应的指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110236088.7/1.html,转载请声明来源钻瓜专利网。