[发明专利]一种信息结构化方法和装置在审
申请号: | 201911301079.0 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111222305A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 魏海巍;王伟伟 | 申请(专利权)人: | 共道网络科技有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/205;G06F40/295;G06N3/08 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王茹 |
地址: | 311100 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 结构 方法 装置 | ||
1.一种信息结构化方法,其特征在于,所述方法包括:
获取用于描述单个事件的事件语句;
对所述事件语句进行实体提取和事件提取,得到所述事件语句的事件触发词与多个实体词,在所述多个实体词中,确定与所述事件触发词具有依赖关系的N个实体词所对应的论元角色,其中,N大于0;
从预先构建的事理图谱中获取匹配于所述事件语句的事件单元;其中,匹配于所述事件语句的事件单元包含有所述事件触发词与对应于所述事件触发词的多个待填充的论元角色项;
将所述N个实体词填充到匹配于所述事件语句的事件单元中的N个待填充的论元角色项中,以得到所述事件语句对应的结构化语句。
2.如权利要求1所述的方法,其特征在于,所述对所述事件语句进行事件提取,包括:基于预先确定的事件提取模型对所述事件语句进行事件提取;
所述事件提取模型的确定方法,包括:
对训练语料句进行分词处理,将分出的单词进行标注,并编码为词向量;
将所述词向量按顺序输入预先训练的双向RNN模型,以预测所述事件语句的第i个词向量是否为事件触发词,以及确定所述第i个词向量的事件触发词类型;
在第i个词向量为触发词的情况下,确定当前事件语句中所包括的实体词与所述事件触发词之间的依赖关系,通过所述依赖关系确定各个实体词对应于所述事件触发词的论元角色;
根据预测结果分别更新用于存储事件触发词、论元角色、事件触发词和论元角色之间依赖关系的三个记忆矩阵。
3.如权利要求2所述的方法,其特征在于,所述将分出的单词编码为词向量,包括:
针对每个单词,将所述单词编码为由第一向量,第二向量和第三向量连接而成的词向量,其中,
查询预训练的词向量表,将当前单词在词向量表中的查询结果确定为第一向量;
确定当前单词的实体类型,根据所述实体类型查询预设的实体类型嵌入表,将查询到的实体类型向量确定为所述单词的第二向量;
确定当前单词的依赖向量,将所述依赖向量确定为所述单词的第三向量,所述依赖向量中第i个元素的值表征当前单词与事件语句的第i个单词是否存在语义上的依赖关系,所述依赖向量的长度与当前单词在所述子句中的依赖关系的数量相同。
4.如权利要求1所述的方法,其特征在于,所述从预先构建的事理图谱中获取匹配于所述事件语句的事件单元,包括:
在预先构建的事件数据库中,查找到匹配于所述事件触发词的事件单元集合;
针对其中一个事件单元,将所述事件语句的N个实体词填充到所述事件单元的待填充的论元角色项中,确定可填充的论元角色项的数量;
将可填充的论元角色项的数量最多的事件单元,确定为匹配成功的事件单元。
5.一种信息结构化方法,其特征在于,所述方法包括:
获得待处理文本;
将所述待处理文本进行数据解析,以提取出所述文本中包括的至少一个事件语句;
按照权利要求1所述的信息结构化方法,在预先构建的事理图谱中获取匹配于所述各个事件语句的事件单元;
依据所匹配到的各个事件单元之间的事理关系,将所述各个事件语句进行组合,以得到所述待处理文本对应的结构化事件信息。
6.如权利要求5所述的方法,其特征在于,所述对所述待处理文本进行数据解析,包括:
基于待处理文本的文本格式,将待处理文本分为不同的基本模块,每个基本模块用于表征其中包含的不同的信息类型;
对所述基本模块中的文本进行序列标注处理,以提取出所述文本中包含的至少一个事件语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于共道网络科技有限公司,未经共道网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911301079.0/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置