[发明专利]一种事件抽取方法、存储介质及服务器在审
申请号: | 202011028849.1 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112149386A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 程德生;邵陈杰;赵志武;江永渡;厉屹;康一帅;陈兴兵;陈志方;周明杰 | 申请(专利权)人: | 杭州中软安人网络通信股份有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06K9/62;G06F16/35;G06F40/284;G06F40/151 |
代理公司: | 北京兰亭信通知识产权代理有限公司 11667 | 代理人: | 赵永刚 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事件 抽取 方法 存储 介质 服务器 | ||
1.一种事件抽取方法,其特征在于,包括:
获取待抽取的文本语料,其中,所述文本语料包括至少一条文本;
根据所述待抽取的文本语料,对通用领域的roberta模型进行预训练,得到专业领域的roberta模型;
对所述文本语料中的每条文本进行人工标注,标注标签包括事件触发词及事件论元标签、每个事件触发词对应的事件论元标签、所述每条文本的事件类型标签;
将所述专业领域的roberta模型、触发词识别模块、事件类型识别模块及事件论元识别模块组成一个事件抽取模型;
根据经过人工标注的文本语料对所述事件抽取模型进行监督训练;
将所述文本语料中的每条文本输入所述事件抽取模型,由所述事件抽取模型提取所述每条文本中的事件触发词、每个事件触发词对应的事件论元及所述每条文本的事件类型;
整合所得到的事件触发词、每个事件触发词对应的事件论元及所述每条文本的事件类型,得到事件抽取结果。
2.如权利要求1所述的事件抽取方法,其特征在于,所述由所述事件抽取模型提取所述每条文本中事件的触发词、每个事件触发词对应的事件论元及所述每条文本的事件类型为:
所述触发词识别模块提取所述每条文本中的事件触发词、以及每个事件触发词在该条文本中所在的位置;
所述事件类型识别模块提取所述每条文本的事件类型;
将所述每条文本与从该条文本中提取出的每个事件触发词进行组合,并输入所述事件抽取模型,由所述事件论元识别模块提取每个事件触发词对应的事件论元。
3.如权利要求2所述的事件抽取方法,其特征在于,所述触发词识别模块提取所述每条文本中的事件触发词、以及每个事件触发词在该条文本中所在的位置具体为:
所述触发词识别模块识别所述每条文本中的事件触发词及事件论元;
根据所识别到的事件触发词及事件论元,所述触发词识别模块提取所述每条文本中的事件触发词。
4.如权利要求3所述的事件抽取方法,其特征在于,所述触发词识别模块对应于一个双向的lstm和线性分类层;
所述触发词识别模块识别每个文本中的事件触发词及事件论元标签具体为:
所述触发词识别模块接收从所述事件抽取模型中的roberta模型输出的每个token;
根据对应的一个双向的lstm和线性分类层,得到每个token对应的事件触发词类别的概率;
根据每个token对应的事件触发词类别的概率,得到每个文本中的事件触发词及事件论元。
5.如权利要求2所述的事件抽取方法,其特征在于,所述事件类型识别模块提取所述每条文本的事件类型为:
根据所述每条文本的特征向量确定所述每条文本的事件类型。
6.如权利要求5所述的事件抽取方法,其特征在于,所述事件类型识别模块对应于一个线性分类层;
所述事件类型识别模块接收所述事件抽取模型中的roberta模型输出的所述每条文本的特征向量;
根据对应的一个线性分类层,得到所述每条文本的事件类型的概率;
根据所得到的所述每条文本的事件类型的概率,得到所述每条文本的事件类型。
7.如权利要求2所述的事件抽取方法,其特征在于,所述事件论元识别模块对应于一个一维的cnn和线性分类层;
所述将所述每条文本与从该条文本中提取出的每个事件触发词进行组合,并输入所述事件抽取模型,由所述事件论元识别模块提取每个事件触发词对应的事件论元具体为:
将所述每条文本与从该条文本中提取出的每个事件触发词通过分隔符隔开;
将所述每条文本、分隔符及从该条文本中提取出的每个事件触发词输入所述事件抽取模型;
所述事件论元识别模块接收从所述事件抽取模型的roberta模型中输出的每个token;
根据对应的一个一维的cnn和线性分类层,得到每个token对应的事件论元类别的概率;
根据每个token对应的事件论元类别的概率,得到每个事件触发词对应的事件论元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州中软安人网络通信股份有限公司,未经杭州中软安人网络通信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011028849.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模块化成型轮
- 下一篇:一种节能环保型真空除尘梳棉机锡林装置