[发明专利]一种基于动机关系的多线索图谱生成方法及系统在审
| 申请号: | 202310455972.9 | 申请日: | 2023-04-25 |
| 公开(公告)号: | CN116501886A | 公开(公告)日: | 2023-07-28 |
| 发明(设计)人: | 季白杨;周庆山 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06N3/0464;G06N3/0442;G06N3/08;G06F40/216 |
| 代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 冷红梅 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 动机 关系 线索 图谱 生成 方法 系统 | ||
1.一种基于动机关系的多线索图谱生成方法,其特征在于,包括以下步骤:
S1、获取各种事件文本,并对获取的各种事件文本进行处理,以得到各种事件文本对应的事件实体,所述事件实体为包含词与词之间关联信息的片段;
S2、构建线索挖掘框架,将各种事件实体输入至线索挖掘框架中以挖掘得到包括各种事件之间关联信息的各种线索,并计算各种线索的置信度;
S3、构建多层卷积神经网络模型,将置信度高于预设值的线索作为训练样本对模型进行训练,以得到训练后的模型;
S4、基于训练后的模型,对置信度低于预设值的线索进行置信度预测,以替代步骤S2中置信度低于预设值的线索的置信度;
S5、基于各种线索的置信度,构建多线索图谱,以建立事件与事件间的联系。
2.根据权利要求1所述的一种基于动机关系的多线索图谱生成方法,其特征在于,所述事件文本为各上市公司官网发布的公告以及各媒体平台上关于各上市公司的新闻。
3.根据权利要求1所述的一种基于动机关系的多线索图谱生成方法,其特征在于,步骤S1包括:
S1.1、对获取到的各种事件文本进行清理,以得到清理后的各种事件文本;
S1.2、利用深度学习的方法对清理后的各种事件文本进行事件抽取,获取词与词之间的关联信息,以得到各种事件文本对应的各种事件实体。
4.根据权利要求3所述的一种基于动机关系的多线索图谱生成方法,其特征在于,步骤S1.1中包括,通过正则表达式删除事件文本中的图片以及链接。
5.根据权利要求3所述的一种基于动机关系的多线索图谱生成方法,其特征在于,步骤S2包括:
S2.1、构建基于Web的线索挖掘框架;
S2.2、选择至少两个关键词作为挖掘的目的,将各种事件实体输入至Web模型中,以得到当前迭代对应的搜索结果,搜索结果为至少包含一个所选关键词的片段,并基于目前所有搜索得到的片段中关键词的数量对所有搜索得到的片段进行提取,并将提取的结果作为当前迭代对应的多个候选线索,并计算每个候选线索的置信度;
S2.3、循环执行步骤S2.2,以得到所有候选线索的置信度。
6.根据权利要求5所述的一种基于动机关系的多线索图谱生成方法,其特征在于,步骤S2.2中,线索的置信度基于共发生率、逐点互信息率、上下文相似性计算得到;
共发生率,表示包含和该线索相同关键词的线索占所有线索的百分比;
逐点互信息率,表示包含两个所选关键词的线索和其他线索的相关性;
上下文相似性,表示该线索文本与其余线索文本的相似度。
7.根据权利要求6所述的一种基于动机关系的多线索图谱生成方法,其特征在于,逐点互信息率PMI的计算公式为:
其中,e1、e2分别表示两个所选的关键词,a表示包含e1和e2的线索的数量,b表示包含e1但不包含e2的线索的数量,c表示包含e2但不包含e1的线索的数量,N表示线索的总数。
8.根据权利要求7所述的一种基于动机关系的多线索图谱生成方法,其特征在于,每次循环步骤S2.2之后,均需要判断目前所有候选线索的置信度是否均高于预设值,若是则停止线索挖掘操作。
9.根据权利要求7所述的一种基于动机关系的多线索图谱生成方法,其特征在于,从第二次循环步骤S2.2开始,每次循环完成之后均需要判断当前迭代后得到的所有候选线索中置信度高于预设值的线索占比,是否高于之前每次迭代过程中的占比,若是则停止线索挖掘操作。
10.一种基于动机关系的多线索图谱生成系统,基于权利要求1-9任一项所述的一种基于动机关系的多线索图谱生成方法,其特征在于,包括依次连接的事件实体获取模块、线索挖掘模块、线索置信度预测模块、多线索图谱构建模块;
事件实体获取模块,用于获取上市公司的各种事件文本,并对获取的各种事件文本进行处理,以得到各种事件实体,所述事件实体为包括词与词之间关联信息的片段;
线索挖掘模块,基于线索挖掘框架对各种事件间的线索进行挖掘,以得到包括各种事件之间关联信息的各种线索,并计算各种线索的置信度;
线索置信度预测模块,用排序在预设数之内的线索对构建的多层卷积神经网络模型进行训练,以得到训练后的线索置信度预测模型,并基于训练后的线索置信度预测模型,对排序在预设数之外的线索进行置信度预测,并用预测得到的置信度替代线索挖掘模块中得到的置信度低于预设值的线索的置信度;
多线索图谱构建模块,基于各种线索的置信度,构建多线索图谱,以建立事件与事件间的联系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310455972.9/1.html,转载请声明来源钻瓜专利网。





