[发明专利]藏文网页分类方法和装置有效
申请号: | 201210345230.2 | 申请日: | 2012-09-17 |
公开(公告)号: | CN102831246A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 胥桂仙 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100081 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏文 网页 分类 方法 装置 | ||
技术领域
本发明涉及网络技术领域,尤其涉及一种藏文网页分类方法和装置。
背景技术
随着国家对少数民族地区信息化基础建设的大力投入,藏文电子数据正以惊人的速度增长。在海量纷繁的藏文信息中,如何快速地定位到感兴趣的类别,具有重要的意义。为了在这些海量的、异质的、非结构化的数据源中提取感兴趣的、潜在的、有用模式和隐藏的信息,需要对网页Web文本信息进行数据挖掘,即进行Web文本挖掘。基于web的文本分类作为处理和组织大量文本数据的关键技术,可以解决网络信息的纷繁杂乱问题,方便用户快速、准确地定位所需要的信息。藏文文本的分类对于藏文搜索引擎、藏文数字图书馆、藏语语料库的建设以及藏文出版等领域具有广泛的应用前景和很重要的现实意义。
目前,大多数web页面分类都是基于中文和英文进行的,已经出现了很多有效的汉英文文本分类算法,如K邻近算法(KNN)、贝叶斯算法、支持向量机(SVM)等分类算法,有效的分类算法可以提高分类的准确性。采用网页链接分类时,不能考虑文本内容,分类具有一定的片面性。采用机器学习的web页面分类,需要构建大量的分类语料,这需要大量人力、物力、财力才能完成;同时,对于中文文本分类,还需要进行分词预处理,分词算法的准确性亦影响到分类的准确性。
由于藏文文本属于黏着性语言,藏文语法结构具有一定的特殊性,已有的这些汉英文文本分类算法不能直接使用到藏文文本分类中。在进行藏文文本分类时,要进行分词,由于紧缩词(缩略语形式)在藏文文本中出现的频率非常高,给分词的准确性带来了难度,也约束了后继的网页进行文本分类。现有的藏文文本分类方法是采用栏目的分类方法,利用网页中的栏目信息进行分类,因而,该方法不能分类没有网页栏目信息的web页面,同时没有考虑文本的内容,导致不能精确地分类,从而影响搜索引擎的返回结果及藏文数据库的准确性。
发明内容
本发明的目的是提供一种藏文网页分类方法和装置,能够对不具有网页栏目信息的网页页面进行分类,通过对网页的文本内容进行分析,提高了分类的准确性,从而可以提高搜索引擎的返回结果及藏文语料库的准确性。
为实现上述目的,本发明提供了一种藏文网页分类方法,所述方法包括:
提取待分类藏文网页的页面信息;
对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量;
利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度;
从所述页面信息中获取网页栏目词条,利用藏文类别特征词表,查找出所述网页栏目词条所在的类别;
根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度;
将可信度满足要求的类别确定为所述待分类藏文网页的类别。
另一方面,本发明还提供了一种藏文网页分类装置,所述装置包括:
信息提取单元,用于提取待分类藏文网页的页面信息;
第一处理单元,用于对所述信息提取单元提取的所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量;
第一计算单元,用于利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度;
栏目提取单元,用于从所述信息提取单元提取的所述页面信息中获取网页栏目词条;
第二分类单元,用于利用藏文类别特征词表,查找出所述网页栏目词条所在的类别;
置信决策单元,用于根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度,将可信度满足要求的类别确定为所述待分类藏文网页的类别。
本发明提供的藏文网页分类方法和装置,采用基于规则和模板相结合的方法进行网页信息提取,利用预先构建的藏文类别特征词表和藏文类别主题词表,对藏文网页文本进行网页栏目和基于类别主题词相结合的文本分类,提高了分类的准确性,对不具有网页栏目信息的网页页面也能进行分类,可用于搜索引擎中帮助人们快速、准确获取所需信息或者用于构建藏文语料库,提高语料库的准确性。
附图说明
图1为本发明实施例一提供的藏文网页分类方法流程图;
图2为本发明实施例一提供的一种藏文类别特征词表的存储结构示意图;
图3为本发明实施例二提供的藏文网页分类装置示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
实施例一
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210345230.2/2.html,转载请声明来源钻瓜专利网。