[发明专利]电力预案文本序列标注中集外词处理方法在审

申请号：	202010891713.7	申请日：	2020-08-28
公开（公告）号：	CN112036163A	公开（公告）日：	2020-12-04
发明（设计）人：	杨群;黄香鸿;刘绍翰	申请（专利权）人：	南京航空航天大学
主分类号：	G06F40/242	分类号：	G06F40/242;G06F40/289;G06N3/04;G06N3/08;G06Q10/06;G06Q50/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	211106 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	电力预案文本序列标注中集处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于电力预案文本序列标注中集外词处理方法，所述方法包括：

101.构建电力预案文本中对应词的词嵌入：生成电力预案文本的嵌入矩阵，用于模型训练；

102.构建电力预案文本中的部首词典：部首词典用于后续进行部首特征提取；

103.提取训练模型所需要的特征：对训练模型所需要的部首特征、上下文特征和字符序特征进行提取；

104.训练集外词处理模型：以上述提取的特征和101得到的词嵌入为输入，词嵌入为目标，训练集外词处理模型；

105.采用集外词处理模型处理集外词：训练好的集外词处理模型能够生成集外词的词嵌入，生成的词嵌入可用于电力预案文本序列标注任务。

2.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述构建电力预案文本中对应词的词嵌入的具体操作是：

使用Word2vec的模型训练原始的电力预案文本，对Word2vec中的超参数进行调整以提高模型的训练速度，并对原始的预案文本抽样进行测试，使用效果最好的模型作为最终的Word2vec模型，使用训练好的Word2vec模型产生电力预案文本对应的词向量。

3.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述构建电力预案文本中的部首词典的具体操作是：

部首词典是从大量电力预案中先总结出每个汉字对应的部首，然后人工进行校正，为电力预案文本中的每个字与其对应的部首建立一一映射关系，以电力预案文本中的汉字为索引，部首为对应的值建立部首词典。

4.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述提取训练模型所需要的特征的具体操作是：

使用输入的电力预案文本序列为索引，找到其中组成汉字的对应的部首作为模型的部首特征，以矩阵的形式进行保存。

对于输入的电力预案文本序列，通过关键词匹配找到需要提取上下文的单词，将该单词所处的句子转换成对应的上下文序列，将不同的上下文序列之间用中括号隔开，以矩阵的形式进行保存。

将电力预案文本中每个词组成的汉字序列提取出来，以对应的矩阵进行保存。

5.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述训练集外词处理模型的具体操作是：

使用Transformer Encoder作为训练模型，选择合适的神经网络激活函数，配置相应的神经网络隐层以防止过拟合现象的产生，使用词嵌入，上下文特征，汉字序列特征，部首特征作为模型的输入，训练集外词处理模型。

6.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述采用集外词处理模型处理集外词的具体操作是：

将训练好的模型作为电力预案序列标注模型的数据预处理模型，在遇到集外词时先使用集外词处理模型生成集外词的词嵌入，将生成的词嵌入输入到序列标注模型中，产生对应每个词的标签，将产生的标签数与真实的标签数一并进行计算，得到集外词处理的准确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010891713.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载