[发明专利]事件本体学习方法有效
申请号: | 201510473700.7 | 申请日: | 2015-08-05 |
公开(公告)号: | CN105260375B | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 沈琦;王宇;陈博;李婧;刘泽伟 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 事件本体学习方法,并应用于煤矿安全领域。目前事件本体的构建主要以人工为主。该领域事件本体的构建,采取的本体学习的数据源主要是网络中存在的大量煤矿安全领域的网页资源,人工进行筛选后作为文本文档,进行本体学习时,首先需要运用自然语言识别的一些技术对文本文档进行预处理,之后通过算法集和统计学方法对预处理结果进行深层次处理,将结果呈现给用户,作为初步的领域事件本体结果,在全程的处理过程中都需要领域专家和开发人员参与并不断修改、纠正,最终形成完善的煤矿安全领域事件本体。 | ||
搜索关键词: | 事件本体 煤矿安全 文本文档 构建 学习 预处理 自然语言识别 预处理结果 方法事件 结果呈现 网页资源 数据源 统计学 算法 筛选 全程 纠正 应用 网络 开发 | ||
【主权项】:
1.事件本体学习方法,其特征在于,包括以下步骤:1)事件类识别:(1)对分档进行分词处理,将词性标记为“/v”的动词和词性标记为“/vn”的动名词提取出来作为初步触发词集合E1;(2)依据停用动词表将集合E1中的第一类停用动词直接剔除,从而得到事件触发词集合E2;(3)遍历集合E2,依次与第二类停用动词集合中动词比对,若匹配,将该词记为v1,在原文档中该词所属子句内向后k距离内查找名词,其中子句指由标点符号隔开的句子,词间距离指距某词的字数长度,若查找到名词n1,则将n1加入集合E2中,并删除v1,查找结束;若向后未查找到名词,则向前k距离内查找,处理方法不变;若仍未找到名词,则直接删除动词v1;经过处理,得到候选触发词集合E3;向后查找距离k取值为3,向前查找距离k取值为2;2)事件重要度计算
上式为计算事件类u的重要度,In(u)为对事件类u的相关性因子大于0的事件类集合,Out(u)为事件类u对其他事件类相关性因子大于0的事件类集合,wju和wug分别为对应的事件类相关性因子,α和β分别是调节入度和出度权重的系数,均取值0.5,q为调节系数,取值为0.85,n为事件类个数;其中,事件类相关性因子计算方法如下:分析相关语料文本集中单一文档d,
和
分别代表事件类ECi和ECj的动作触发词在文档d中出现频次;在单篇文档中统计计算事件类ECi对ECj的相关性因子公式定义如下所示:
由于事件相关性因子定义为数学中的概率值,如果
则对计算结果归一化,即令
由于单篇文档有可能会存在偶然性,因此需要对整个文档集合进行统计计算取平均值,最终事件类ECi对ECj的相关性因子的计算公式如下所示:
其中N表示整个文档集集合,|N|表示整个文档集个数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510473700.7/,转载请声明来源钻瓜专利网。