[发明专利]藏文网页分类方法和装置有效
申请号: | 201210345230.2 | 申请日: | 2012-09-17 |
公开(公告)号: | CN102831246A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 胥桂仙 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100081 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种藏文网页分类方法和装置,所述方法包括:提取待分类藏文网页的页面信息;对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量;利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度;将所述文本相似度满足要求的所述主题词向量的类别确定为所述待分类藏文网页的类别。本发明提供的藏文网页分类方法及装置,通过对网页的文本内容进行分析,提高了分类的准确性,从而可以提高搜索引擎的返回结果及藏文语料库的准确性。 | ||
搜索关键词: | 藏文 网页 分类 方法 装置 | ||
【主权项】:
一种藏文网页分类方法,其特征在于,所述方法包括:提取待分类藏文网页的页面信息;对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量;利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度;从所述页面信息中获取网页栏目词条,利用藏文类别特征词表,查找出所述网页栏目词条所在的类别;根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度;将可信度满足要求的类别确定为所述待分类藏文网页的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210345230.2/,转载请声明来源钻瓜专利网。