[发明专利]一种基于文本语义的概念生成模型的系统和方法有效

专利信息
申请号: 201610126084.2 申请日: 2016-03-04
公开(公告)号: CN105808711B 公开(公告)日: 2019-11-26
发明(设计)人: 刘磊;蔡海博;常晓飞;李静;汪海洲 申请(专利权)人: 北京工业大学;北京富雷姆科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06F17/27;G06K9/62
代理公司: 11203 北京思海天达知识产权代理有限公司 代理人: 沈波<国际申请>=<国际公布>=<进入国
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种基于文本语义的概念生成模型的系统和方法,属于文本知识获取领域,具体涉及概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法及系统。本发明首先提取出中文语料库中的已有概念,然后去除其前部特征和后部特征得到候选概念词构件,并利用基于统计的方法和基于上下文语境的方法对候选概念词构件进行了相似度的计算,然后进行聚类,在已有概念的基础上生成新的概念,扩充构词规则库。并且通过实验,验证了该发明的有效性。
搜索关键词: 一种 基于 文本 语义 概念 生成 模型 系统 方法
【主权项】:
1.一种基于文本语义的概念生成方法,其特征在于:该方法包括如下步骤,/n步骤1:获取中文语料库;并对文本进行预处理;/n步骤2:抽取语料库中已有的概念,并对所有的已有的概念做如下预处理/n(1)去除包含英文、日文、韩文特殊字符的概念;/n(2)去重;/n(3)去除人名,去除的人名是英文音译为中文的人名;/n经过上述预处理后组成已有的概念库;/n步骤3:利用词法分析和统计方法,提取出已有概念的前部特征和后部特征,组成前部特征库和后部特征库,作为生成新概念词的首部、尾部的构件;/n(1)分词,利用中国科学院计算技术研究所分词系统ICTCLAS对概念库中的所有已有概念进行分词处理,提取出已有概念的候选前部特征和候选后部特征;/n(2)对候选前部特征和后部特征按频数从高到低进行排序,筛选出出现频数100以上的候选前部特征、后部特征并对其再一次进行分词处理,保留多字词和标记为名词成分的单字词,组成可用于和其他字、词结合生成新概念的前部特征库和后部特征库,用作生成新概念词首部或尾部的构件;/n步骤4:将已有概念除去前部特征或后部特征,得到用于生成新概念词的候选概念词构件;/n针对已有的概念库中的所有概念词,依据前部特征库和后部特征库,分别去除其前部特征或后部特征,得到候选概念词构件库;/n步骤5:分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法,计算候选概念词构件的相似度;/n输入:文本预处理后的文档集合D={d1,d2,d3,…dN},N为文档集合的总数;/n其中,D表示维基百科中的所有条目所对应的页面信息的集合,表示维基百科中某一个条目所对应的页面信息;/n待计算相似度的所有候选概念词构件W={w1,w2,w3,…wm},m为候选概念词构件的总数;其中,W表示所有候选概念词构件的集合,表示某一个候选概念词构件;/n5.1、基于统计的方法/n本质上是基于词频的方法,假设针对同一条目下的两个候选概念词构件,若这两个候选概念词构件和条目相关度相似,则这两个候选概念词构件相似;/n该基于词频的方法用TF-IDF计算某一候选概念词构件与候选概念词构件的集合中的另一个候选概念词构件所在条目的相关度,用每个候选概念词构件与条目的相关度,计算两两候选概念词构件之间的相似度;每个条目正文的首段要比正文其他位置的信息更重要,所以将出现在正文首段的候选概念词构件的权重设置为2,出现正文其他位置的候选概念词构件的权重设置为1;/nS1:计算候选概念词构件与条目之间的相关度/n /n表示某候选概念词构件wi和某条目dt的关系紧密程度;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示候选概念词构件wi在文档dt其他位置出现的次数;/n /n表示某候选概念词构件wi的稀缺程度,即这个某候选概念词构件wi出现的几率;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示某候选概念词构件wi和在条目dt其他位置出现的次数;/nrel(dt,wi)=TF(dt,wi)×IDF(dt,wi)/n表示某候选概念词构件wi和某条目dt的相关度;/nS2:计算候选概念词构件之间的相似性/n /n表示在同一条目dt下,wi和wj的相关度;/n /n表示在文档集合D中,wi和wj关于共现条目的相似度;若共现条目的个数小于阈值,则去找候选概念词构件所在条目的共同上位,共同上位只限制在所在条目的上三层,然后利用统计方法计算候选概念词构件所在条目之间的相关度,进而得出候选概念词构件之间的相似性;/n /nwi∈dt,wj∈dn,dt,dn∈D/ndk为dt和dn的某个最近共同上位/n /n /n表示候选概念词构件所在条目dt和dn与最近共同上位dk的相关度;其中,dt,dn,dk∈D/n /n表示在文档集合D中,wiwj关于共同上位的相似度;/n5.2、基于上下文语境的方法/nStep1:候选概念词构件的语境获取/n去除文档集合D中无用的XML标签,并将所有文本内容按句号逐句断开;在语料库中遍历所有候选概念词构件,将包含某候选概念词构件的所有语料筛选出来,组成该候选概念词构件的语境;最终得到所有候选概念词构件的语境集合Con={Con1,Con2,Con3,…Conm};/nStep2:候选概念词构件的特征分析选取/n(1)分词;利用中国科学院计算技术研究所分词系统ICTCLAS对所有候选概念词构件的语境集合进行分词处理,去除停用词、去除标点符号、去除数字和字母;/n(2)选择每个候选概念词构件语境中的名词、动词和形容词作为候选特征词;/n(3)采用TF-IDF方法进行特征词的选择;/n(4)利用《同义词词林》,找到特征词的同义词,对特征词进行扩充,得到最终候选概念词构件的特征词库;/nStep3:构建向量空间模型,进行相似度sim2的计算/n(1)将每一个候选概念词构件表示为:候选概念词构件={特征词1,特征词2,特征词3,…,特征词n}的向量形式,在文档集合D中搜索候选特征词,若搜索到某特征词就将该特征词的权值加1;/n(2)利用数学中四种经典的比较向量相似度的方法:基于皮尔森相关性的相似度、基于欧几里德距离的相似度、余弦相似度、基于谷本系数的相似性度量,选出最适合的向量相似度的方法,计算候选概念词构件的向量的两两之间的相似度sim2的值;/n(3)根据潜在语义分析,改善个别候选概念词构件的相似度计算,最终得到所有候选概念词构件的相似度sim2的值;/n5.3、基于上下文语境方法和基于统计方法相结合的方法/n综合考虑基于上下文语境的方法和基于统计的方法,设定参数α和β分别作为上述两种方法的权重,并且α+β=1;/n步骤6:利用相似度特征对候选概念词构件聚类,并设定阈值,相似度大于阈值的候选概念词构件可以互换其前部特征或后部特征组成新的概念;/n随机选取已有概念库中的概念词,进行分词和去后部特征处理,得到候选概念词构件;/n6.1、基于统计的方法/n利用基于统计的方法,计算出所有候选概念词构件两两之间的相似度,并设定不同的候选概念词构件相关度阈值θ1和待交换构件与后部特征相关度阈值θ2以及是否匹配后部特征库条件,合成新的概念词;/n不匹配后部特征库条件时,合成的新概念词的个数随着θ1的不断增加而均匀减少;/n6.2、基于上下文语境的方法/n利用上述基于上下文语境的方法,计算出所有候选概念词构件两两之间的相似度;/n6.3、基于上下文语境方法和基于统计方法相结合的方法/n利用上述基于上下文语境方法和基于统计方法相结合的方法,计算出所有候选概念词构件两两之间的相似度;/n相同θ1和θ2的情况下,合成的新概念词的个数最多。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学;北京富雷姆科技有限公司,未经北京工业大学;北京富雷姆科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610126084.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top