[发明专利]一种基于互联网电力政策信息的知识图谱构建方法在审
申请号: | 202111346515.3 | 申请日: | 2021-11-15 |
公开(公告)号: | CN114090787A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 王翀;查易艺;张明明;徐青山;许梦晗;林杉;宋玉 | 申请(专利权)人: | 国网江苏省电力有限公司信息通信分公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/951;G06F40/216;G06F40/242;G06F40/289;G06F40/30;G06K9/62;G06Q50/06 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 钱超 |
地址: | 210024 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互联网 电力 政策 信息 知识 图谱 构建 方法 | ||
1.一种基于互联网电力政策信息的知识图谱构建方法,其特征在于,包括如下步骤:
S1、采集互联网上的电力领域知识,结构化存储电力数据,构建原始的电力领域知识数据库;
S2、构建电力领域知识专用词典,以步骤S1中采集到的互联网上的电力领域知识为文本用基于动态规划的维特比算法进行分词处理,并根据电力领域知识专用词典进行词性标注,得到文本词、文本句;
S3、基于TextRank算法对步骤S2得到的文本词和文本句进行权重判别,提取文本关键词和关键句;
S4、根据分词词性提取文中词和文本句中的实体信息,将获取的实体信息和步骤S3提取的关键词、关键句映射到一个语义空间,使用图数据库对实体信息及其关系进行存储,形成基于互联网电力政策信息的知识图谱。
2.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S1的具体步骤包括:
S1.1、选取电力领域政策信息的可信网络数据源;
S1.2、对网络数据源上的文本信息通过聚焦网络爬虫进行抓取,并根据系统获取信息的需求设计上下层提取器对网络数据源进行判重和置信度分析,降低信息采集系统的运算量和存储量;
S1.3、根据采集到信息的不同数据作结构化存储,构建原始的电力领域知识数据库。
3.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S2的具体步骤包括:
S2.1、收集多篇语料文档,通过人工手工分词,统计人工分词后的词频:①统计分词后的每个词出现的频率,得到一元核心词典;②统计两个词两两相邻出现的频率,得到二元核心词典;
根据贝叶斯公式计算词A和词B在语料库中共同出现的频率和词B在语料库中出现的频率,基于这两个频率计算出在给定词B的条件下,下一个词是A的概率;
贝叶斯公式如下:
P(A|B)=P(A,B)P(B)=count(A,B)count(B);
其中,count(A,B)表示词A和词B在语料库中共同出现的频率;count(B)表示词B在语料库中出现的频率;
S2.2、Verterbi模型通过比较不同分词结果出现的可能性并选择最大者进行分词处理;
S2.3、根据词库,生成所有字可能组成的词网,通过遍历上述词网获取从一个词到另一个词的可能性,选择可能性最大的作为分词的结果,并根据电力领域知识专用词典进行词性标注。
4.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S3包括:
S3.1、关键词的提取
将文本看作图,单词看作结点Vi,选取半径为2的窗口,每个单词Vi与自身前后固定窗口内的单词Vj连接,初始化时每个结点的权重TR(Vi)都是1,以迭代的方式更新每个结点的权重,权重最高的单词即是关键词;
每次迭代权重的公式如下:
其中,Wji是单词Vj和Vi间的连接权重,设置为1;Wjk是单词Vj和Vk间的连接权重,设置为1;d是阻尼系数,设置为0.85;TR(Vj)是单词Vj的权重;
S3.2、关键句的提取
以句子作为结点Si,考察句子间的相似度,相似度的计算公式如下:
其中,pk为句子中的单词节点;
式中,分子是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和;
如果两个句子有相似性,认为这两个句子对应的节点之间存在一条无向有权边,以迭代的方式更新每个结点的权重,句子的迭代公式如下:
其中,TR(Si)为结点Si的权重。
5.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S4的具体步骤包括:
基于Verterbi模型对文本词的词性标注并对特定实体信息作提取,将实体和实体间的关系映射到语义空间,采用向量的方法来表示实体和关系,导入Neo4j图数据库中保存为基于互联网电力政策信息的知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司信息通信分公司,未经国网江苏省电力有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111346515.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种胸外科用术后锻炼装置
- 下一篇:粘合片及其制造方法