[发明专利]藏文网页分类方法和装置有效
申请号: | 201210345230.2 | 申请日: | 2012-09-17 |
公开(公告)号: | CN102831246A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 胥桂仙 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100081 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏文 网页 分类 方法 装置 | ||
1.一种藏文网页分类方法,其特征在于,所述方法包括:
提取待分类藏文网页的页面信息;
对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量;
利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度;
从所述页面信息中获取网页栏目词条,利用藏文类别特征词表,查找出所述网页栏目词条所在的类别;
根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度;
将可信度满足要求的类别确定为所述待分类藏文网页的类别。
2.根据权利要求1所述的藏文网页分类方法,其特征在于,在所述提取待分类藏文网页的页面信息之前,还包括:
利用记录的去重日志,判断所述待分类藏文网页是否为重复网页,如果是,则丢弃该藏文网页,否则提取待分类藏文网页的页面信息,并更新所述去重日志;
3.根据权利要求1所述的藏文网页分类方法,其特征在于,在所述提取待分类藏文网页的页面信息之后,还包括:
利用记录的去重日志,判断所述页面信息是否为重复的页面信息,如果是,则丢弃该藏文网页,否则执行所述对所述页面信息进行分词处理,并更新所述去重日志。
4.根据权利要求1所述的藏文网页分类方法,其特征在于,在所述提取待分类藏文网页的页面信息之后,还包括:
对所述页面信息进行编码转换,得到统一编码方式的页面信息;
对转换后的所述页面信息进行分词处理,或者,从转换后的所述页面信息中获取所述网页栏目词条。
5.根据权利要求1所述的藏文网页分类方法,其特征在于,所述对页面信息进行分词处理,得到所述待分类藏文网页的词项向量,具体为:
对所述页面信息进行分词得到各个词项,统计所述各个词项的词频,并为各个词项赋予权重;
所述各个词项及各个词项的权重构成所述待分类藏文网页的词项向量。
6.根据权利要求1所述的藏文网页分类方法,其特征在于,所述利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度,具体为:
所述藏文类别主题词表中包括n个类别Dic=(C1,C2,…,Ci,…,Cn),其中,Ci表示第i个类别,Ci=(l1,l2,…,lm)表示第i个类别Ci中包含m个主题词,Ci对应的权重向量为:Wi=(w1,w2,…,wm),wm表示第m个主题词的权重;
所述待分类藏文网页的所述词项向量中包含k个词项T=(t1,t2,…,tk),各个词项对应的词频为F=(f1,f2,…,fk),各个词项对应的权重为V=(v1,v2,…,vk);
根据相似度计算公式Sim<Ci,T>=Wi*V/sqrt(|Wi|*|V|),计算得到所述第i个主题类别的主题词向量与所述词项向量的文本相似度,其中i∈(1,n),Wi=length(Ci);V=F*Wi。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210345230.2/1.html,转载请声明来源钻瓜专利网。