[发明专利]一种科学新闻标题的多层次多分类方法有效

专利信息
申请号: 201610114278.0 申请日: 2016-03-01
公开(公告)号: CN105760524B 公开(公告)日: 2019-04-19
发明(设计)人: 朱全银;邵武杰;唐海波;周泓;李翔;胡荣林;金鹰;曹苏群;潘舒新 申请(专利权)人: 淮阴工学院
主分类号: G06F16/35 分类号: G06F16/35;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 223005 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种科学新闻标题的多层次多分类方法,本发明通过新闻标题,使用多层次多分类方法对科学类新闻进行分类,将科学类新闻分为生命科学、医学科学、地球科学、数学物理科学、化学科学、信息科学六类,多层次为多层对待分类的科学类新闻文本分类进行判断其类别,首先判断待分类的新闻文本是否为信息类科学类新闻,如果是则结束,否则判断待分类的新闻文本是否为生命科学类或医学科学类新闻,或者为地球科学类、数学物理科学类和化学科学类新闻三者之一,前者进一步再判断为生命科学类新闻,还是医学科学类新闻,后者再进一步判断为地球科学类、数学物理类或化学科学类新闻中的一类;本发明解决了Web网页上对科学类新闻详细分类的问题,提高了Web网页上科学类新闻分类后的使用价值。
搜索关键词: 一种 科学 新闻标题 多层次 分类 方法
【主权项】:
1.一种科学新闻标题的多层次多分类方法,其特征在于:通过科学类新闻标题,首先对随机抽取的新闻标题文本集进行预处理和加权,形成初步完善的预分类的科学类词汇语料库集,再使用改进的余弦相似度计算方法对待分类的科学类新闻标题和各个完善后的科学类词汇语料库进行计算,最终将待分类的科学类新闻归类到已定义的科学类新闻类别中;其中,包括待分类的科学类新闻归类流程步骤A、改进的余弦相似度计算步骤B、建立第一阶段科学类词汇语料库集流程步骤C、建立第二阶段科学类词汇语料库集流程步骤D、建立第三阶段科学类词汇语料库集流程步骤E和科学类词汇语料库完善步骤F;其中,具体包括以下步骤:待分类的科学类新闻归类流程步骤A,从步骤A1到步骤A28:步骤A1、定义ntitleL为单篇待分类的科学类新闻标题文本,其中,变量L为待分类的科学类新闻标题文本集的标题总数,待分类的科学新闻标题文本Ntitle={ntitle1, ntitle2, …, ntitleL};步骤A2、定义循环变量sum,用于遍历Ntitle,赋值sum=1;步骤A3、如果sum<=L,那么就执行步骤A4,否则执行步骤A28;步骤A4、定义变量p为ntitlesum的分词总数,NWord为分词集,nword为单个分词,stopwordsum为单个停用词;使用分词工具 IK Analyzer对ntitlesum进行分词处理,去除单个字或单个字母的词,再去除停用词集StopWords中的词,其中,StopWords={stopword1, stopword2, …, stopwordsum},得到分词集:NWord={nword1, nword2, …, nwordp};步骤A5、定义ncortfnp为nwordnp对应的加权值,其中,np∈[1, p];定义NTF=twords/TWords,用来计算待分类标题分词nwordnp的加权值,其中,twords为nwordnp在标题分词中出现的个数,TWords为标题的分词个数,依据步骤A4中的NWord,得到数据集:NCorTF={(nword1, ncortf1), (nword2, ncortf2), …, (nwordp, ncortfp)};步骤A6、引入步骤C8中的语料库集:Variety;步骤A7、将Variety应用于步骤B1;步骤A8、执行步骤B1到步骤B12;步骤A9、得到SIM={Sim1, Sim2, …, Sim6},将SIM赋值给COM,其中,COM={Com1, Com2, …, Com6},SIM来自于步骤B12;步骤A10、如果Com6>=Com1&&Com6>=Com2&&Com6>=Com3&&Com6>=Com4&& Com6>=Com5,那么就执行步骤A11,否则执行步骤A12;步骤A11、ntitlesum属于信息科学新闻,执行步骤A27;步骤A12、如果(Com1>=Com2&&Com1>=Com3&&Com1>=Com4&&Com1>=Com5)|| (Com2>= Com1&&Com2>=Com3&&Com2>=Com4&&Com2>=Com5),那么就执行步骤A13,否则执行步骤A19;步骤A13、引入步骤D7中语料库集Variety,将Variety应用于步骤B1;步骤A14、执行步骤B1到步骤B12;步骤A15、得到SIM={Sim1, Sim2};步骤A16、依据步骤A15,如果Sim1>=Sim2,那么就执行步骤A17,否则执行步骤A18;步骤A17、ntitlesum属于生命科学新闻,执行步骤A27;步骤A18、ntitlesum属于医学科学新闻,执行步骤A27;步骤A19、引入步骤E7中语料库集Variety,将Variety应用于步骤B1;步骤A20、执行步骤B1到步骤B12;步骤A21、得到SIM={Sim3, Sim4, Sim5};步骤A22、依据步骤A21中SIM,如果Sim3>=Sim4&&Sim3>=Sim5,那么就执行步骤A23,否则执行步骤A24;步骤A23、ntitlesum属于地球科学新闻,执行步骤A27;步骤A24、依据步骤A21中SIM,如果Sim4>=Sim5,那么就执行步骤A25,否则执行步骤A26;步骤A25、ntitlesum属于数学物理科学新闻,执行步骤A27;步骤A26、ntitlesum属于化学科学新闻,执行步骤A27;步骤A27、sum=sum+1,执行步骤A3;步骤A28、引入步骤A1中Ntitle={ntitle1, ntitle2, …, ntitleL},定义变量one,其中,one∈[1, L];定义CLA={Cla1, Cla2, …, Cla6},其中,Cla1、Cla2、Cla3、Cla4、Cla5和Cla6分别为生命科学集、医学科学集、地球科学集、数学物理科学集、化学科学集和信息科学集;定义变量any,其中,any∈[1,6];得到Ntitle的分类结果ntitleone∈Claany,即,将待分类的标题分类到已知科学类新闻分类中;其中,改进的余弦相似度计算步骤B,从步骤B1到步骤B12:步骤B1、引入步骤A5中NCorTF={(nword1, ncortf1), (nword2, ncortf2), …, (nwordp, ncortfp)}, 引入步骤F1中Variety={V1,V2,…VN},其中,变量N为集合Variety中语料库的个数;计算待分类标题文本与N个不同学科方向语料库的相似度,定义SIM={Sim1, Sim2, …, SimN};定义循环变量r,用来遍历Variety,其中,r∈[1,N];定义循环变量t,用来遍历NCorTF,其中,t∈[1, p];定义循环变量s,用来遍历Variety的Vr语料库;赋值r=1,t=1,s=1,SimTFCorTF=0,SimTF=0,SimCorTF=0;步骤B2、如果r<=N,那么就执行步骤B3,否则执行步骤B12;步骤B3、定义K为当前使用的语料库词语个数,如果s<=K,那么就执行步骤B4,否则执行B10;步骤B4、求Vr语料库中所有词语的平方和SimTF=SimTF+tfr,s*tfr,s;步骤B5、如果t<=p,那么就执行步骤B6,否则执行步骤B9;步骤B6、如果nwordt=wordr,s,那么就执行步骤B7,否则执行步骤B8;步骤B7、计算SimTFCorTF=SimTFCorTF+tfr,s*ncortft,SimCorTF=SimCorTF+ncortft*ncortft, 执行B9;步骤B8、t=t+1,执行步骤B5;步骤B9、s=s+1,执行步骤B3;步骤B10、计算Simr=SimTFCorTF/(SimTF1/2*SimCorTF1/2);步骤B11、赋值r=r+1,SimTFCorTF=0,SimTF=0,SimCorTF=0,执行步骤B2;步骤B12、得到集合SIM={Sim1, Sim2, …, SimN};其中,建立第一阶段科学类词汇语料库集流程步骤C,从步骤C1到步骤C8:步骤C1、定义科学类新闻分为生命科学新闻、医学科学新闻、地球科学新闻、数学物理科学新闻、化学科学新闻和信息科学新闻,根据这六类分类,定义从Web网页挖取的新闻中AllTitle为新闻的标题集合,其中,ATitle1、ATitle2、ATitle3、ATitle4、ATitle5和ATitle6分别为生命科学类新闻标题集、医学科学类新闻标题集、地球科学类新闻标题集、数学物理科学类新闻标题集、化学科学类新闻标题集和信息科学类新闻标题集;定义atitle1a、atitle2b、atitle3c、atitle4d、atitle5e和atitle6f分别为生命科学类新闻标题、医学科学类新闻标题、地球科学类新闻标题、数学物理科学类新闻标题、化学科学类新闻标题和信息科学类新闻标题,其中,变量a、b、c、d、e和f分别为生命科学类新闻标题、医学科学类新闻标题、地球科学类新闻标题、数学物理科学类新闻标题、化学科学类新闻标题和信息科学类新闻标题的个数;得到AllTitle={ATitle1, ATitle2, ATitle3, ATitle4, ATitle5, ATitle6}, ATitle1={atitle11, atitle12, …, atitle1a}, ATitle2={atitle21, atitle22, …, atitle2b}, ATitle3={atitle31, atitle32, …, atitle3c}, ATitle4={atitle41, atitle42, …, atitle4d}, ATitle5={atitle51, atitle52, …, atitle5e}, ATitle6={atitle61, atitle62, …, atitle6f};步骤C2、定义title1N、title2N、title3N、title4N、title5N和title6N分别为随机抽取的生命科学类新闻标题、医学科学类新闻标题、地球科学类新闻标题、数学物理科学类新闻标题、化学科学类新闻标题和信息科学类新闻标题,其中,N∈[1, 2500];从步骤C1中的AllTitle随机抽取标题文本,分别从生命科学、医学科学、地球科学、数学物理科学、化学科学和信息科学六类新闻标题集中随机抽取2500个文本作为训练文本集,即共抽取15000个新闻标题集TraTitle={Title1, Title2, Title3, Title4, Title5, Title6}, Title1={title11, title12, …, title1N}, Title2={title21, title22, …, title2N}, Title3={title31, title32, …, title3N}, Title4={title41, title42, …, title4N}, Title5={title51, title52, …, title5N}, Title6={title61, title62, …, title6N};步骤C3、引入步骤A4中的停用词集StopWords,定义Word1、Word2、Word3、Word4、Word5和Word6分别为生命科学、医学科学、地球科学、数学物理科学、化学科学和信息科学的分词集,word1,u、word2,v、word3,w、word4,x、word5,y和word6,z分别为生命科学、医学科学、地球科学、数学物理科学、化学科学和信息科学的分词,其中,变量u、v、w、x、y和z分别为生命科学、医学科学、地球科学、数学物理科学、化学科学和信息科学六类的分词个数;使用的分词工具 IK Analyzer对步骤C2中的TraTitle进行分词处理,去除单个字或单个字母的词,再去除停用词集StopWords中的词,StopWords={stopword1, stopword2, …, stopwordnum},得到分词集:Cor={Word1, Word2, Word3, Word4, Word5, Word6}, Word1={word1,1, word1,2, …, word1,u}, Word2={word2,1, word2,2, …, word2,v}, Word3={word3,1, word3,2, …, word3,w}, Word4={word4,1, word4,2,…, word4,x}, Word5={word5,1, word5,2, …, word5,y}, Word6={word6,1, word6,2, …, word6,z};步骤C4、定义corTF1、corTF2、corTF3、corTF4、corTF5和corTF6分别为生命科学、医学科学、地球科学、数学物理科学、化学科学和信息科学六类的语料库,其中,tf1,u为word1,u所对应的加权值,tf1,v为word1,v所对应的加权值,tf1,w为word1,w所对应的加权值,tf1,x为word1,x所对应的加权值,tf1,y为word1,y所对应的加权值,tf1,z为word1,z所对应的加权值;定义TF=Words/AllWords,计算加权值,其中,TF为单个词的加权值,Words为某个词在该类分词集中出现的次数,AllWords为某类分词集的总词数;依据步骤C3中的Cor,计算结果集Cor中word的加权值,得到语料库集:CorTF={corTF1, corTF2, corTF3, corTF4, corTF5, corTF6}, corTF1={(word1,1, tf1,1), (word1,2, tf1,2), …, (word1,u, tf1,u)}, corTF2={(word2,1, tf2,1), (word2,2, tf2,2), …, (word2,v, tf2,v)}, corTF3={(word3,1, tf3,1), (word3,2, tf3,2), …, (word3,w, tf3,w)}, corTF4={(word4,1, tf4,1), (word4,2, tf4,2), …, (word4,x, tf4,x)}, corTF5={(word5,1, tf5,1), (word5,2, tf5,2), …, (word5,y, tf5,y)}, corTF6={(word6,1, tf6,1), (word6,2, tf6,2), …, (word6,z, tf6,z)};步骤C5、定义simwordg为单个六类语料库中相同的词语,其中,变量g为六类语料库拥有相同词语的个数;依据步骤C3中的Cor,计算SimWord=Word1∩Word2∩Word3∩Word4∩Word5∩Word6,得到:SimWord={simword1, simword2, …, simwordg};步骤C6、将CorTF赋值给Variety,将SimWord赋值给Similarity,Variety与Similarity来自于步骤F1;步骤C7、执行步骤F1到步骤F10;步骤C8、将Variety赋值给CorTF11,Variety来自于步骤F10,得到完善后的语料库集:CorTF11={corTF11, corTF21, corTF31, corTF41, corTF51, corTF61}, corTF11={(word1,1, tf1,1), (word1,2, tf1,2), …, (word1,u, tf1,u)}, corTF21={(word2,1, tf2,1), (word2,2, tf2,2), …, (word2,v, tf2,v)}, corTF31={(word3,1, tf3,1), (word3,2, tf3,2), …, (word3,w, tf3,w)}, corTF41={(word4,1, tf4,1), (word4,2, tf4,2), …, (word4,x, tf4,x)}, corTF51={(word5,1, tf5,1), (word5,2, tf5,2), …, (word5,y, tf5,y)}, corTF61={(word6,1, tf6,1), (word6,2, tf6,2), …, (word6,z, tf6,z)};其中,建立第二阶段科学类词汇语料库集流程步骤D,从步骤D1到步骤D7:步骤D1、定义CorTF2为医学科学与生命科学语料库集,依据步骤C4中语料库集CorTF的医学科学语料库和生命科学语料库,得到:CorTF2={corTF1, corTF2}, corTF1={(word1,1, tf1,1), (word1,2, tf1,2), …, (word1,u, tf1,u)}, corTF2={(word2,1, tf2,1), (word2,2, tf2,2), …, (word2,v, tf2,v)};步骤D2、定义变量min,将MIN(u, v)结果赋值给min,MIN()函数为取最小值,统一CorTF2中医学科学与生命科学语料库词语数目,将corTF1和corTF2两个语料库按加权值进行降序排列,保留两个语料库中前min个词语;得到:CorTF22={corTF12, corTF22}, corTF12={(word1,1, tf1,1), (word1,2, tf1,2), …, (word1,min, tf1,min)}, corTF22={(word2,1, tf2,1), (word2,2, tf2,2), …, (word2,min, tf2,min)};步骤D3、定义Word12为医学科学词集,定义Word22为生命科学词集,抽取步骤D2中的结果集CorTF22中的词语,形成词集:CorWord22={Word12, Word22}, Word12={word1,1, word1,2, …, word1,min}, Word22={word2,1, word2,2, …, word1,min};步骤D4、定义simwordG为两类语料库中相同的词语,其中,变量G为两类语料库拥有相同词的个数,计算两个语料库的相同的词语SimWord2=Word12∩Word22,得到:SimWord2={simword1, simword2, …, simwordG};步骤D5、将CorTF22赋值给Variety,将SimWord2赋值给Similarity,Variety与Similarity来自于步骤F1;步骤D6、执行步骤F1到步骤F10;步骤D7、将Variety赋值给CorTF23,Variety来自于步骤F10,得到完善后的语料库集:CorTF23={corTF13, corTF23}, corTF13={(word1,1, tf1,1), (word1,2, tf1,2),…, (word1,min, tf1,min)}, corTF23={(word2,1, tf2,1), (word2,2, tf2,2), …, (word2,min, tf2,min)};其中,建立第三阶段科学类词汇语料库集流程步骤E,从步骤E1到步骤E7:步骤E1、定义CorTF3为地球科学、数学物理科学和化学科学语料库集,依据步骤C4,得到语料库集CorTF3中的地球科学语料库、数学物理科学语料库和化学科学语料库:CorTF3={corTF3, corTF4, corTF5}, corTF3={(word3,1, tf3,1), (word3,2, tf3,2), …, (word3,w, tf3,w)}, corTF4={(word4,1, tf4,1), (word4,2, tf4,2), …, (word4,x, tf4,x)}, corTF5={(word5,1, tf5,1), (word5,2,t f5,2), …, (word5,y, tf5,y)};步骤E2、定义变量min2,将MIN(w, x, y)赋值给min2,统一CorTF3中的地球科学、数学物理科学和化学科学语料库三个语料库词语数目,将corTF3、corTF4和corTF5三个语料库按加权值降序排列,保留三个语料库中前min2个词语;得到:CorTF32={corTF32, corTF42, corTF52}, corTF32={(word3,1, tf3,1), (word3,2, tf3,2), …, (word3,min2, tf3,min2)}, corTF42={(word4,1, tf4,1),(word4,2, tf4,2), …, (word4,min2, tf4,min2)}, corTF52={(word5,1, tf5,1), (word5,2, tf5,2), …, (word5,min2, tf5,min2)};步骤E3、定义Word32为地球科学词集,Word42为数学物理科学词集,Word52为化学科学词集,抽取步骤E2中CorTF32的词语,形成词集:CorWord32={Word32, Word42}, Word32={word3,1, word3,2, …, word3,min2}, Word42={word2,1, word4,2, …, word4,min2}, Word52={word5,1, word5,2, …, word5,min2};步骤E4、定义simwordF为CorTF3中的地球科学、数学物理科学和化学科学三类语料库中相同的词语,其中,变量F为三类语料库拥有相同词的个数,依据步骤E3,计算三类语料库的相同的词语SimWord3=Word32∩Word42∩Word52,得到:SimWord3={simword1, simword2, …, simwordF};步骤E5、将CorTF32赋值给Variety,将SimWord3赋值给Similarity,Variety与Similarity来自于步骤F1;步骤E6、执行步骤F1到步骤F10;步骤E7、将Variety赋值给CorTF23,Variety来自于步骤F10,得到完善后的语料库集:CorTF33={corTF33, corTF43, corTF53}, corTF33={(word3,1, tf3,1), (word3,2, tf3,2), …, (word3,min2, tf3,min2)}, corTF43={(word4,1, tf4,1), (word4,2, tf4,2), …, (word4,min2, tf4,min2)}, corTF53={(word5,1, tf5,1), (word5,2, tf5,2), …, (word5,min2, tf5,min2)};其中,科学类词汇语料库完善步骤F,从步骤F1到步骤F10:步骤F1、定义Variety={V1, V2, …, VN},Similarity={S1, S2, …, SR},其中,变量N为Variety中语料库个数,变量R为Similarty集合中元素的个数;定义循环变量i,用来遍历Similarity,其中,i∈[1, R];定义循环变量j,用来遍历Variety,其中,j∈[1, N];定义循环变量h, 用来遍历Variety中语料库Vj,赋值i=1,j=1,h=1;步骤F2、如果j<=N,那么就执行步骤F3,否则执行步骤F10;步骤F3、如果i<=R,那么就执行步骤F4,否则执行步骤F8;步骤F4、如果wordj,h=simwordi,就将执行步骤F5,否则执行步骤F6;步骤F5、定义常量T为加权值控制常量,将语料库Vj中(wordj,h, tfj,h)更新为:(wordj,h, tfj,h*T),执行步骤F7;步骤F6、h=h+1,执行步骤F4;步骤F7、i=i+1,执行步骤F3;步骤F8、定义变量k为Vj语料库中的词语对应加权值的个数,当j=1时,k=u;当j=2时,k=v;当j=3时,k=w;当j=4时,k=x;当j=5时,k=y;当j=6时,k=z;得到Vj语料库:corTFj,h={(wordj,1, tfj,1), (wordj,2, tfj,2), …, (wordj,k, tfj,k)},其中,有R个(wordj,h, tfj,h=tfj,h*T);步骤F9、j=j+1,执行步骤F2;步骤F10、得到完善后的集合:Variety。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610114278.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top