[发明专利]一种因果关系知识库的构建方法、装置及设备在审
申请号: | 201811494944.3 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109308323A | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 高云龙;朱明;郝志成;吴川 | 申请(专利权)人: | 中国科学院长春光学精密机械与物理研究所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 130033 吉林省长春市*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 因果关系 知识库 文本数据 数据源 构建 语句 计算机可读存储介质 文本数据处理 预设时间段 装置及设备 结果预测 判断数据 数据总量 数据量 集合 保证 返回 重建 学习 | ||
本发明公开了一种因果关系知识库的构建方法、装置、设备及计算机可读存储介质,该方法包括:由数据源中获取文本数据,并将文本数据处理成多个语句;由处理得到的多个语句中确定出存在因果关系的因果句,识别因果句中包含的实体对,并确定包含有识别得到的实体对的集合为因果关系知识库;实体对包括原因实体及结果实体;由数据源中获取文本数据的时刻开始每经过预设时间段,则判断数据源中变化的数据总量是否达到数据量阈值,如果是,则返回执行由数据源中获取文本数据的步骤,如果否,则确定无需重建构建因果关系知识库。从而基于永恒学习的框架保证了因果关系知识库的实时有效性,进而保证了基于因果关系知识库实现结果预测时的准确性。
技术领域
本发明涉及数据分析技术领域,更具体地说,涉及一种因果关系知识库的构建方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网技术的飞速发展,每个用户作为数据的原创者,展现每一个“小我”,促使了数据的爆炸式增长。
作为表达自我日常行为和社会情感的载体,文本数据中蕴藏着大量的个体对于生活经验的总结,其中包含有丰富的事物间关联关系,甚至因果关系。因果关系是事物间联系的最主要形式,广泛地应用于经济、医疗、军事和安全等领域。通常为了实现结果预测,需要创建包含有原因及结果对应实体的因果关系知识库,进而针对需要实现预测的原因,由因果关系知识库中确定与该原因对应的结果,实现结果预测。其中,因果关系知识库在结果预测中起到非常重要的作用,现有技术中通常基于一定的数据构建得到因果关系知识库后,则将该因果关系知识库作为后期每次实现结果预测基于的因果关系知识库,但是由于因果关系是可能因时间变化而变化的,这种变化包括因果关系的增加、减少及改变等,而现有技术中构建因果关系知识库后即基于该因果关系知识库实现后续每次的结果预测,显然会存在准确性较低的问题。
综上所述,现有技术中实现因果关系知识库构建的技术方案存在实现结果预测时准确性较低的问题。
发明内容
本发明的目的是提供一种因果关系知识库的构建方法、装置、设备及计算机可读存储介质,能够解决现有技术中实现因果关系知识库构建的技术方案存在的实现结果预测时准确性较低的问题。
为了实现上述目的,本发明提供如下技术方案:
一种因果关系知识库的构建方法,包括:
由数据源中获取文本数据,并将所述文本数据处理成多个语句;
由处理得到的多个语句中确定出存在因果关系的因果句,识别所述因果句中包含的实体对,并确定包含有识别得到的实体对的集合为因果关系知识库;其中,所述实体对包括原因实体及结果实体;
由所述数据源中获取文本数据的时刻开始每经过预设时间段,则判断所述数据源中变化的数据总量是否达到数据量阈值,如果是,则返回执行所述由数据源中获取文本数据的步骤,如果否,则确定无需重建构建因果关系知识库。
优选的,确定任一语句是否为存在因果关系的因果句,包括:
确定任一语句为当前语句,判断当前语句中是否包含明确因果关系提示词集合中包含的任一明确因果关系提示词,如果是,则确定当前语句为因果句,如果否,则确定当前语句不为因果语句;其中,所述明确因果关系提示词为表明确定存在因果关系的因果关系提示词。
优选的,确定当前语句不为因果语句之前,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院长春光学精密机械与物理研究所,未经中国科学院长春光学精密机械与物理研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811494944.3/2.html,转载请声明来源钻瓜专利网。