[发明专利]传统蒙古文网页识别方法和装置有效
申请号: | 201510033629.0 | 申请日: | 2015-01-22 |
公开(公告)号: | CN104598593B | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 王志娟 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京亿腾知识产权代理事务所11309 | 代理人: | 陈霁 |
地址: | 100081 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 传统 蒙古文 网页 识别 方法 装置 | ||
1.一种传统蒙古文网页识别方法,其特征在于,所述方法包括:
获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi,其中,i≥0;
根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值Fi;
由所述传统蒙古文网页语料库的各个词中,根据Fi的值由大到小,选取前第一数量个词,并对所述前第一数量个词的Fi值进行累加,得到第一累加和;
获取并统计待识别网页中所述前第一数量个词的词频TFj,其中,j≥0;
对所述待识别网页中前第一数量个词的TFj值进行累加,得到第二累加和;
当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时,确定所述待识别网页为传统蒙古文网页;
其中,所述前第一数量为所取词的个数与所取对象中词的个数之比。
2.根据权利要求1所述的传统蒙古文网页识别方法,其特征在于,在所述获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi之前,所述方法还包括:
下载传统蒙古文网页,并对所述传统蒙古文网页进行预处理;
构建传统蒙古文网页语料库。
3.根据权利要求1所述的传统蒙古文网页识别方法,其特征在于,在获取并统计待识别网页中所述前第一数量个词的词频TFj之前,所述方法还包括:
对所述待识别网页进行垃圾信息过滤、格式转换和编码转换,得到处理后的待识别网页。
4.根据权利要求1-3任一项所述的传统蒙古文网页识别方法,其特征在于,所述传统蒙古文网页语料库至少包括100万个传统蒙古文词。
5.一种传统蒙古文网页识别装置,其特征在于,所述装置包括:
第一获取单元,用于获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi,其中,i≥0;
第一计算单元,用于根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值Fi;
第二计算单元,用于由所述传统蒙古文网页语料库的各个词中,根据Fi的值由大到小,选取前第一数量个词,并对所述前第一数量个词的Fi值进行累加,得到第一累加和;
第二获取单元,用于获取并统计待识别网页中所述前第一数量个词的词频TFj,其中,j≥0;
第三计算单元,对所述待识别网页中前第一数量个词的TFj值进行累加,得到第二累加和;
决策单元,用于当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时,确定所述待识别网页为传统蒙古文网页;
其中,所述前第一数量个词为所取词的个数与所取对象中词的个数之比。
6.根据权利要求5所述的传统蒙古文网页识别装置,其特征在于,所述装置还包括:
第一处理单元,用于下载传统蒙古文网页,并对所述传统蒙古文网页进行预处理;
创建单元,用于构建传统蒙古文网页语料库。
7.根据权利要求5所述的传统蒙古文网页识别装置,其特征在于,所述装置还包括:
第二处理单元,用于对所述待识别网页进行垃圾信息过滤、格式转换和编码转换,得到处理后的待识别网页。
8.根据权利要求5-7任一项所述的传统蒙古文网页识别装置,其特征在于,所述传统蒙古文网页语料库至少包括100万个传统蒙古文词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510033629.0/1.html,转载请声明来源钻瓜专利网。