[发明专利]一种针对突发事件的事件知识图谱构建方法有效
申请号: | 202110467741.0 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113312490B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 孙锐;谢红 | 申请(专利权)人: | 乐山师范学院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 张举 |
地址: | 614000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 突发事件 事件 知识 图谱 构建 方法 | ||
1.一种针对突发事件的事件知识图谱构建方法,其特征在于,包括以下步骤:
步骤1、收集突发事件新闻文档,对突发事件新闻文档进行数据预处理操作,得到新闻数据集D;
步骤2、将预处理后的新闻数据集D加入背景语料,预训练后得到词的分布式表示,即词的Embedding;
步骤3、对新闻数据集D中的每篇新闻,以语句为单位采用深度学习的序列标注方法进行事件抽取,所对应的事件采用主谓宾结构的三元组原子事件表示;
所述步骤3具体包括:
步骤31、令语句对应的词序列作为输入序列,表示为x={w1,w2,...,wn},以预训练后得到的Embedding作为词的输入向量wi,令词序列对应的预测标签集合为ye={ye1,ye2,...,yen},标签可选集合为{O,BSub,ISub,BPre,IPre,BObj,IObj},分别表示非事件主谓宾、事件主语开始词、事件主语非开始词、事件谓语开始词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词;
步骤32、经过神经网络隐层的训练提取句子特征,得到每个词对应位置i上的网络隐层输出pi;
步骤33、在输入层,综合考虑隐层输出pi和标签转移概率预测输出每个词对应位置i上的标签yei,其预测概率为
步骤34、语句对应的整个词序列的最后得分为序列所有位置得分之和,即:
对此得分进行Softmax归一化后,模型目标函数表示为即优化得到语句对应词序列的最优标签预测序列;
步骤35、对语句按上述模型优化后的结果进行解码,连续标签{BSub,ISub,…}对应的词序列为原子事件主语,连续标签{BPre,IPre,…}对应的词序列为原子事件谓语,连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的词则为非原子事件主谓宾,从语句的第一个词依次往后扫描,连续的主谓宾合并得到一个三元组原子事件;
步骤4、根据事件模板的分布特点,针对事件表现形式多样化的问题,采用Bootstrapping方法进行三元组原子事件的规范化,修正不规范事件的形态,得到规范化原子事件;
步骤5、对出现在同一语句中的规范化原子事件对,采用基于深度学习的算法学习其上下文特征,判别规范化原子事件对间的时序关系;
步骤6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件知识图谱,以规范化原子事件为结点,规范化原子事件对的时序关系为边,得到最后的事件知识图谱。
2.根据权利要求1所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤1对突发事件新闻文档进行数据预处理操作具体包括:利用现有的自然语言处理工具包,完成新闻语料清洗,并对每篇文档进行预处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐山师范学院,未经乐山师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110467741.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种精品钢材制备用冷凝水回收系统
- 下一篇:橡胶纺织轮胶料及制备方法和应用