[发明专利]一种基于跨模型、跨语言知识建模的知识挖掘方法在审

专利信息
申请号: 202111112651.6 申请日: 2021-09-23
公开(公告)号: CN113836265A 公开(公告)日: 2021-12-24
发明(设计)人: 方明;赵蔚彬;岳晨;刘世刚;代勋勋;方宸;任国政 申请(专利权)人: 中国人民解放军军事科学院战争研究院外国军事研究所
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/36;G06F40/295;G06F40/30
代理公司: 中国兵器工业集团公司专利中心 11011 代理人: 周恒
地址: 100091 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模型 语言 知识 建模 挖掘 方法
【权利要求书】:

1.一种基于跨模型、跨语言知识建模的知识挖掘方法,其特征在于,所述方法包括如下步骤:

步骤1:针对不同国家分别进行知识建模,包括多层级实体概念建模、实体属性建模和逻辑关联关系建模;该步骤1包括具体步骤如下;

步骤11:在知识建模后台系统中针对不同国家分别创建各自的知识模型,分别以国家名称对不同国家对应的知识模型进行创建并命名,然后为每个知识模型创建依据兼属关系约束的多层级实体概念;所述多层级实体概念包括:一级实体概念、二级实体概念;其中,所述一级实体概念包括:组织机构、人物、地点、武器装备;二级实体概念为某个一级实体概念下属的子集,两者之间在兼属关系存在包含与被包含的关系;

步骤12:针对每个特定的实体概念创建其对应的实体属性;其中,对于组织机构而言,其实体属性包括:成立时间、总部所在地、规模、人数;对于人物而言,其实体属性包括:年龄、性别、职务、出生地、学历;对于地点而言,其实体属性包括:气候、经纬度;对于武器装备而言,其实体属性包括长度、重要、作战半径、威力;

步骤13:在整个知识模型中,对于其中每两个能够产生实体关系的实体概念,将其定义为一对,针对每对能够产生实体关系的实体概念,创建其两者之间的逻辑关联关系;

所述逻辑关联关系包括:

人物和组织机构之间的关系包括“任职”、“成员”,人物和地点之间的关系包括“出生地”、“死亡地”,人物和人物之间的关系包括“同事”、“亲属”,武器装备和组织机构之间的关系包括“研制单位”,组织机构和组织机构之间的关系包括“隶属机构”,武器装备和武器装备之间的关系包括“装载”、“别名”;

步骤14:重复实施步骤11至步骤13,依次创建研究任务所涉及的全部国家的知识模型、各国家知识模型内的多层级实体概念、实体属性、逻辑关联关系,从而形成以数据形式存在的知识模型数据;将所述知识模型数据按照国家进行分组,并以分组的形式存入数据库表中;

步骤2:针对知识模型数据中的多层级实体概念、实体属性、逻辑关联关系,将其本国官方语言作为源语言,以源语言对知识模型数据进行建模,形成多层级实体概念、实体属性、逻辑关联关系各自的源语言模型,即多层级实体概念源语言模型、实体属性源语言模型、逻辑关联关系源语言模型;

然后根据源语言与中文之间的对照语义关系,对于所述多层级实体概念源语言模型、实体属性源语言模型、逻辑关联关系源语言模型,建立其各自对应的多层级实体概念中文模型、实体属性中文模型、逻辑关联关系中文模型;

步骤3:对每一篇新闻素材进行知识抽取;

采用监督知识抽取方法和非监督知识抽取方法相结合的方式进行知识抽取,该步骤3包括具体步骤如下:

步骤31:采用监督深度学习方法,通过人工标注数据进行监督训练,生成监督知识抽取模型;此处的监督知识抽取模型是针对每一种语言分别训练生成,包括:中文监督知识抽取模型、英文监督知识抽取模型、日文监督知识抽取模型、俄文监督知识抽取模型;

步骤32:根据用户建立的多层级实体概念模型、实体属性模型、逻辑关联关系模型,定义字典、规则;

其中,对于多层级实体概念模型而言,当用户在知识模型中定义了实体概念“武器装备”,那么预整理一批“武器装备”相关的飞机、舰船、导弹的数据作为字典,字典是指具体实体名称和实体概念的一个映射关系;一旦在新闻素材中匹配到了字典中的数据,就认为其属于“武器装备”概念;

同时定义规则,凡是以“舰”、“机”结尾的实体,就认为它属于“武器装备”概念;对于实体属性模型而言,当用户在知识模型中定义了“武器装备”概念的实体属性“长度”,那么定义规则:在新闻素材中一旦匹配到了“武器装备”概念下的实体以及关键词“长度”,就将“长度”以及“长度”对应的具体数值作为该“武器装备”的属性;

对于逻辑关联关系模型而言,当用户在知识模型中定义了概念对“人物”和“人物”的逻辑关联关系“亲属”,那么定义规则:在新闻素材中一旦匹配到了概念对“人物”-“人物”,以及关键词“父亲”、“母亲”、“亲戚”,那就将“亲属”作为概念对“人物”-“人物”的逻辑关联关系;

以此类推,依据多层级实体概念模型、实体属性模型、逻辑关联关系模型,定义全部的规则和字典,形成非监督知识抽取模型;

同样,这里的规则和字典是分别针对每一种语言设计生成的,包括中文规则字典、英文规则字典、日文规则字典、俄文规则字典,由此,形成中文非监督知识抽取模型、英文非监督知识抽取模型、日文非监督知识抽取模型、俄文非监督知识抽取模型;

步骤33:对每一篇新闻素材进行知识抽取,依据新闻素材本身的语言,分别调用对应语言的监督知识抽取模型和非监督知识抽取模型,并将二者返回的结果进行融合;

知识抽取涵盖三个过程:

首先进行实体抽取,输入为单篇新闻素材,输出为素材中包含的全部实体信息;

其次进行属性抽取,输入为素材中全部的实体信息,输出为每个实体具有的属性信息;

最后进行关系抽取,输入为素材中全部的实体信息,输出为每一组实体对之间具有的逻辑关联关系信息;

通过上述知识抽取过程,获得新闻素材中的知识;

步骤4:将知识抽取过程获取到的知识和知识模型进行映射;由于从不同语言新闻素材中获取到的知识,不一定就映射到该语言对应的知识模型下,需要根据新闻素材的篇章、句子语义信息再次进行判断,从而完成知识和知识模型之间的映射;其中,包括如用英语报道的日本国内新闻,抽取到的知识应该映射到日本知识模型下;用日语报道的印度国内新闻,抽取到的知识应该映射到印度知识模型下;

该步骤4包括具体步骤如下:

步骤41:对新闻素材中每一个句子根据知识模型进行分类,具体类别包括美国知识模型、日本知识模型、印度知识模型、俄罗斯知识模型;如果分类结果的可信度较高,那么认为分类结果有效;将该句子中抽取到的知识映射到分类得到的知识模型中;

步骤42:如果句子分类结果的可信度较低,那么认为句子分类结果无效;这时对整篇新闻素材按照知识模型进行分类,具体类别包括美国知识模型、日本知识模型、印度知识模型、俄罗斯知识模型;将新闻素材中每个句子抽取到的知识都映射到分类得到的知识模型中;

步骤43:通过上述步骤41及步骤42的映射过程,生成输出是知识和知识模型的组合,即知识库;此处获得知识库为源语言形式的知识库;

步骤44:针对源语言形式的知识库,根据所述步骤2中多层级实体概念源语言模型、实体属性源语言模型、逻辑关联关系源语言模型所各自对应的多层级实体概念中文模型、实体属性中文模型、逻辑关联关系中文模型,再次进行源语言与中文的映射,获得中文形式的知识库;

步骤5:由于同一知识往往具有不同的表现形式,所以需要对中文形式的知识库中,映射到知识模型中的知识进一步进行跨语言知识融合;

本步骤基于开源百科库、开源知识库实现跨语言知识库建设,基于跨语言知识库实现跨语言知识融合;该模块具体步骤如下:

步骤51利用开源百科库、开源知识库建设跨语言知识库;

将这些开源百科库、开源知识库进行梳理、整合,建设统一的跨语言知识库;跨语言知识库中包含同一实体在不同语言维度上的别名、属性、描述、标签信息;

步骤52利用跨语言知识库对不同语言下的同一知识进行对齐,完成知识的融合对齐;

由此,最终完成跨模型、跨语言知识建模及知识挖掘,获得所需的跨语言新闻知识库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院战争研究院外国军事研究所,未经中国人民解放军军事科学院战争研究院外国军事研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111112651.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top