[发明专利]一种文本处理方法、电子设备和存储介质在审
申请号: | 202010434410.2 | 申请日: | 2020-05-21 |
公开(公告)号: | CN111522919A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 姜旭;付骁弈;李嘉琛 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;龙洪 |
地址: | 200232 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 电子设备 存储 介质 | ||
1.一种文本处理方法,包括:
获得待处理的文本以及所述文本对应的标签;
从所述文本所包含的事件句中,确定多个候选事件句,其中,事件句是指包含事件触发词和命名实体的语句;
分别计算多个候选事件句与所述标签的相似度;
将所述多个候选事件句中相似度满足预设相似度条件的候选事件句作为所述文本对应的主题句。
2.根据权利要求1所述的方法,其特征在于,所述从所述文本所包含的事件句中,确定多个候选事件句,包括:
对所述文本进行处理,获得所述文本中包含的事件句;
基于所述文本中包含的事件句,构建加权无向图,其中,所述加权无向图中的节点表示事件句,所述加权无向图中的每条边表示每条边所连接的两个事件句之间相关联,所述加权无向图中的每个边的权重值表示每个边所连接的两个事件句之间的关联强度;
基于所述加权无向图,从所述文本所包含的事件句中,确定多个候选事件句。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本进行处理,获得所述文本中包含的事件句,包括:
对所述文本进行分句处理,得到多个语句;
对所述多个语句进行命名实体识别,得到多个包含命名实体的语句;
基于预先构建的事件触发词集,对所述多个包含命名实体的语句进行事件触发词识别,得到所述文本中包含的事件句。
4.根据权利要求2所述的方法,其特征在于,所述基于所述文本中包含的事件句,构建加权无向图,包括:
针对每个事件句,通过自然语言处理方法,生成每个事件句的关键词词典,其中,每个事件句的关键词词典包括:该事件句中包含的事件信息及其对应的类型信息,事件信息包括:命名实体、事件触发词、论元中的一种或多种,类型信息包括:命名实体所对应的命名实体类型、事件触发词所对应的事件类型、论元所对应的触发词类型中的一种或多种;
基于每两个事件句的关键词词典,计算每两个事件句之间的关联强度;
根据所述文本中包含的事件句以及每两个事件句之间的关联强度,生成加权无向图。
5.根据权利要求4所述的方法,其特征在于,所述基于每两个事件句的关键词词典,计算每两个事件句之间的关联强度,包括:
对每两个事件句的关键词词典进行遍历,计算出每两个事件句所对应的多个事件信息对的相似度;
将每两个事件句所对应的多个事件信息对的相似度相加,得到每两个事件句之间的关联强度。
6.根据权利要求5所述的方法,其特征在于,所述对每两个事件句的关键词词典进行遍历,计算出每两个事件句所对应的多个事件信息对的相似度,包括:
对每两个事件句的关键词词典进行遍历,得到每两个事件句所对应的多个事件信息对以及多个类型信息对,其中,多个类型信息对与多个事件信息对一一对应;
针对每个事件信息对以及与每个事件信息对所对应的类型信息,通过如下处理,计算出每个事件信息对的相似度:
确定该类型信息对中的两个类型信息是否相同;
若该类型信息对中的两个类型信息是相同的,将该类型信息对所对应的事件信息对的相似度记为0;
若该类型信息对中的两个类型信息是不相同的,根据文本相似度方法,计算该类型信息对所对应的事件信息对的相似度。
7.根据权利要求2所述的方法,其特征在于,所述基于所述加权无向图,从所述文本所包含的事件句中,确定多个候选事件句,包括:
基于所述加权无向图,计算每个事件句的重要性得分;
基于每个事件句的重要性得分,从所述文本所包含的事件句中,确定多个候选事件句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010434410.2/1.html,转载请声明来源钻瓜专利网。