[发明专利]电力预案文本序列标注中集外词处理方法在审

专利信息
申请号: 202010891713.7 申请日: 2020-08-28
公开(公告)号: CN112036163A 公开(公告)日: 2020-12-04
发明(设计)人: 杨群;黄香鸿;刘绍翰 申请(专利权)人: 南京航空航天大学
主分类号: G06F40/242 分类号: G06F40/242;G06F40/289;G06N3/04;G06N3/08;G06Q10/06;G06Q50/06
代理公司: 暂无信息 代理人: 暂无信息
地址: 211106 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 电力 预案 文本 序列 标注 中集 处理 方法
【权利要求书】:

1.一种基于电力预案文本序列标注中集外词处理方法,所述方法包括:

101.构建电力预案文本中对应词的词嵌入:生成电力预案文本的嵌入矩阵,用于模型训练;

102.构建电力预案文本中的部首词典:部首词典用于后续进行部首特征提取;

103.提取训练模型所需要的特征:对训练模型所需要的部首特征、上下文特征和字符序特征进行提取;

104.训练集外词处理模型:以上述提取的特征和101得到的词嵌入为输入,词嵌入为目标,训练集外词处理模型;

105.采用集外词处理模型处理集外词:训练好的集外词处理模型能够生成集外词的词嵌入,生成的词嵌入可用于电力预案文本序列标注任务。

2.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述构建电力预案文本中对应词的词嵌入的具体操作是:

使用Word2vec的模型训练原始的电力预案文本,对Word2vec中的超参数进行调整以提高模型的训练速度,并对原始的预案文本抽样进行测试,使用效果最好的模型作为最终的Word2vec模型,使用训练好的Word2vec模型产生电力预案文本对应的词向量。

3.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述构建电力预案文本中的部首词典的具体操作是:

部首词典是从大量电力预案中先总结出每个汉字对应的部首,然后人工进行校正,为电力预案文本中的每个字与其对应的部首建立一一映射关系,以电力预案文本中的汉字为索引,部首为对应的值建立部首词典。

4.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述提取训练模型所需要的特征的具体操作是:

使用输入的电力预案文本序列为索引,找到其中组成汉字的对应的部首作为模型的部首特征,以矩阵的形式进行保存。

对于输入的电力预案文本序列,通过关键词匹配找到需要提取上下文的单词,将该单词所处的句子转换成对应的上下文序列,将不同的上下文序列之间用中括号隔开,以矩阵的形式进行保存。

将电力预案文本中每个词组成的汉字序列提取出来,以对应的矩阵进行保存。

5.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述训练集外词处理模型的具体操作是:

使用Transformer Encoder作为训练模型,选择合适的神经网络激活函数,配置相应的神经网络隐层以防止过拟合现象的产生,使用词嵌入,上下文特征,汉字序列特征,部首特征作为模型的输入,训练集外词处理模型。

6.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述采用集外词处理模型处理集外词的具体操作是:

将训练好的模型作为电力预案序列标注模型的数据预处理模型,在遇到集外词时先使用集外词处理模型生成集外词的词嵌入,将生成的词嵌入输入到序列标注模型中,产生对应每个词的标签,将产生的标签数与真实的标签数一并进行计算,得到集外词处理的准确率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010891713.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top