[发明专利]电力预案文本序列标注中集外词处理方法在审
| 申请号: | 202010891713.7 | 申请日: | 2020-08-28 |
| 公开(公告)号: | CN112036163A | 公开(公告)日: | 2020-12-04 |
| 发明(设计)人: | 杨群;黄香鸿;刘绍翰 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06N3/04;G06N3/08;G06Q10/06;G06Q50/06 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 211106 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 电力 预案 文本 序列 标注 中集 处理 方法 | ||
1.一种基于电力预案文本序列标注中集外词处理方法,所述方法包括:
101.构建电力预案文本中对应词的词嵌入:生成电力预案文本的嵌入矩阵,用于模型训练;
102.构建电力预案文本中的部首词典:部首词典用于后续进行部首特征提取;
103.提取训练模型所需要的特征:对训练模型所需要的部首特征、上下文特征和字符序特征进行提取;
104.训练集外词处理模型:以上述提取的特征和101得到的词嵌入为输入,词嵌入为目标,训练集外词处理模型;
105.采用集外词处理模型处理集外词:训练好的集外词处理模型能够生成集外词的词嵌入,生成的词嵌入可用于电力预案文本序列标注任务。
2.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述构建电力预案文本中对应词的词嵌入的具体操作是:
使用Word2vec的模型训练原始的电力预案文本,对Word2vec中的超参数进行调整以提高模型的训练速度,并对原始的预案文本抽样进行测试,使用效果最好的模型作为最终的Word2vec模型,使用训练好的Word2vec模型产生电力预案文本对应的词向量。
3.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述构建电力预案文本中的部首词典的具体操作是:
部首词典是从大量电力预案中先总结出每个汉字对应的部首,然后人工进行校正,为电力预案文本中的每个字与其对应的部首建立一一映射关系,以电力预案文本中的汉字为索引,部首为对应的值建立部首词典。
4.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述提取训练模型所需要的特征的具体操作是:
使用输入的电力预案文本序列为索引,找到其中组成汉字的对应的部首作为模型的部首特征,以矩阵的形式进行保存。
对于输入的电力预案文本序列,通过关键词匹配找到需要提取上下文的单词,将该单词所处的句子转换成对应的上下文序列,将不同的上下文序列之间用中括号隔开,以矩阵的形式进行保存。
将电力预案文本中每个词组成的汉字序列提取出来,以对应的矩阵进行保存。
5.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述训练集外词处理模型的具体操作是:
使用Transformer Encoder作为训练模型,选择合适的神经网络激活函数,配置相应的神经网络隐层以防止过拟合现象的产生,使用词嵌入,上下文特征,汉字序列特征,部首特征作为模型的输入,训练集外词处理模型。
6.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述采用集外词处理模型处理集外词的具体操作是:
将训练好的模型作为电力预案序列标注模型的数据预处理模型,在遇到集外词时先使用集外词处理模型生成集外词的词嵌入,将生成的词嵌入输入到序列标注模型中,产生对应每个词的标签,将产生的标签数与真实的标签数一并进行计算,得到集外词处理的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010891713.7/1.html,转载请声明来源钻瓜专利网。





