[发明专利]一种基于Gspan和TextRank的科技领域本体构建方法在审
申请号: | 201810998966.7 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109165299A | 公开(公告)日: | 2019-01-08 |
发明(设计)人: | 徐小良;陈学圣;王宇翔 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Gspan和TextRank的科技领域本体构建方法。本发明包含以下步骤:对科技领域语料库中数据进行预处理,得到标准化的术语和术语关系以及各自权重且以此建立文档图模型;对文档图模型通过TextRank算法构建文档图信息量模型;通过对文档图信息量模型进行马尔科夫聚类得到候选概念集;并且基于Gspan频繁子图挖掘算法对文档图信息量模型计算得到本体术语关系图;将候选概念集合本体术语关系图结合形成科技领域本体。该方法在构建科技领域本体过程中综合考虑术语信息量在子图挖掘中的作用,以此改进Gspan频繁子图挖掘算法,使本体构建更加完整准确,从而提高本体构建的可靠性、有效性。 | ||
搜索关键词: | 科技领域 文档图 构建 信息量 术语关系 频繁子图挖掘 候选概念 算法 预处理 模型计算 算法构建 综合考虑 语料库 聚类 权重 标准化 集合 挖掘 改进 | ||
【主权项】:
1.一种基于Gspan和TextRank的科技领域本体构建方法,其特征在于该方法包含如下步骤:步骤1:对科技语料库进行预处理和标准化针对科技语料库内的科技文档通过预处理,得到所需的基础文档信息,接着通过语料标准化处理得到构建文档图所需的术语顶点以及术语关系结果,具体是:a)首先将每一篇科技文档分别进行预处理,通过句子分割、过滤停用词、词性标注、分词得到术语及其与其他术语之间关系模型,作为文档图的边;b)其次将术语出现频次和术语共现频次通过进行归一化处理,分别作为文档图中的术语顶点以及文档图中边的权重;步骤2:基于TextRank构建文档图信息模型依据步骤1得到的术语顶点以及术语关系结果构建文档图,接着利用TextRank算法构建文档图信息模型,具体是:a)首先将术语和术语关系以及其权重构建文档图;b)然后构建文档图信息量模型:文档图通过迭代TextRank算法更新各个术语顶点权重值,以此衡量术语对于文档图的信息量,从初始权重最大的顶点开始迭代;
WS(Vi)表示术语顶点权重,WE(eij)表示边eij的边权重值,通过迭代计算顶点权重值越高说明其对于领域语料库拥有更大的信息量,d表示设定阈值,Neigh(Vi)表示与顶点Vi边相邻的顶点集,通过计算更新各个术语顶点权重值,迭代达到设定阈值后,停止迭代,更新各个术语连接边权重值;
步骤3:基于马尔科夫聚类构建候选概念集根据步骤2的文档图信息模型构建文档图矩阵,对于该矩阵通过马尔科夫聚类将术语信息聚类得到关于术语顶点的候选概念集,具体是:a)先根据上述文档图模型构建文档图矩阵;b)再将矩阵标准化,即矩阵内每个值均按照该元素所在列进行归一化,且将主对角线矩阵元素均设为1:c)通过Expansion操作计算矩阵e次幂,即矩阵自身相乘e次;d)接着Inflation操作,即分别计算矩阵每个元素的r次幂,且分别将矩阵元素根据其所在列归一化操作;e)然后迭代c),d)直至矩阵状态稳定不变;f)最后根据以上处理完的结果矩阵构建候选概念集,即结合含义相近的术语顶点以及术语关系边形成候选概念;步骤4:基于Gspan频繁子图挖掘构建本体领域根据步骤2的文档图信息模型,首先构建子图挖掘所需的术语关系边DFS编码,以及构建文档图约束函数即通过计算术语顶点以及术语关系边信息量构建各个文档图的约束信息,然后结合前两者结果挖掘频繁子图,具体是:a)先构建边的DFS编码:E=(V0,V1,A,B,a)V0,V1即分别表示顶点id,A,B分别为顶点V0,V1的标号即根据顶点权重排序后排名结果,a表示边id;图由以下编码构成的边组成;G={E1,E2,...,En}b)再构建文档图约束函数:I(g)=∑v∈v(g)iv(v)+∑e∈E(g)ie(e)I(g)表示图信息量,iv(v)表示单个顶点信息量,ie(e)表示单条边信息量;![]()
D′,D″表示图数据库的子集,d′,d″表示子图,WE(e)表示术语关系边权重值;c)频繁子图挖掘SubMining:根据DFS编码和子集约束函数挖掘本体关系图;d)本体关系图与步骤3候选概念集结合形成科技领域概念本体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810998966.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种通用实体链接装置及方法
- 下一篇:文本蕴含识别方法及装置