[发明专利]传统蒙古文网页识别方法和装置有效

申请号：	201510033629.0	申请日：	2015-01-22
公开（公告）号：	CN104598593B	公开（公告）日：	2017-12-22
发明（设计）人：	王志娟	申请（专利权）人：	中央民族大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京亿腾知识产权代理事务所11309	代理人：	陈霁
地址：	100081 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	传统蒙古文网页识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络技术领域，尤其涉及一种传统蒙古文网页识别方法和装置。

背景技术

传统蒙古文是中国内蒙古自治区的蒙古语的官方书写方式(即用蒙古字母书写蒙古语的正写法)。传统蒙古文网络资源是蒙古族群众用本民族文字传递信息、共享资源的重要途径，也是蒙古族传统文化传承的主要平台，传统蒙古文网络资源对于研究蒙古语、蒙古族文化以及实现传统蒙古文全文搜索引擎具有重要意义。我国的传统蒙古文网络资源相对中文、英文网络资源数量较少，且编码复杂，因此，准确、高效地搜集传统蒙古文网络资源至关重要，前期研究发现，准确、高效地搜集传统蒙古文网络资源关键在于传统蒙古文网页的准确识别。

目前，网页识别方法包括以下几种：1)根据超文本标记语言(HyperText Mark-up Language，HTML)的LANG属性判断网页文字所属语言。HTML语言的LANG属性需要申明网页所用的文字，该属性能使搜索引擎和浏览器准确地读取网页的内容。2)根据HTML的“font-family”和“charset”属性判断网页文字所属语言。HTML语言提供网页的字符编码，不同的字符编码会使用不同的字体，因此可通过HTML的“font-family”属性来判断网页的文字。例如：网页“charset”为GB2312，且“font-family”为“BZDBT”、“TIBETBT”或网页的“charset”为UTF8，且“font family”为“Microsoft Himalaya”，则可判断该网页为藏文。3)基于特定语种的高频词识别网页文字所属语言。每种语种都有自己的高频语法单元，因此可以通过判断待分析网页中高频词出现的频率判断网页语言。例如根据藏文音节点及高频词出现的频率判断网页是否为藏文。

对于根据HTML的LANG属性判断网页文字的方法，根据万维网联盟(World Wide Web Consortium，W3C)标准，每个网页都应该申明LANG属性，由于很多传统蒙古文网页中没有HTML语言的LANG属性，因此，不能仅仅根据网页的LANG属性判断网页语言是否为传统蒙古文。对于根据HTML的“font-family”和“charset”属性判断网页文字所属语言的方法，很多传统蒙古文网页仅有“charset”信息、没有“font-family”信息，因此不能根据“charset”和“font-family”来判断网页文字是否为传统蒙古文。对于基于特定语种的高频词识别网页文字所属语言，不同的语言有自己的语言特点，因此各种语言的高频词是不相同的，例如：“的”、“了”是中文使用频率较高的词，“it”、“the”是英文中使用频率较高的词，(他、她、它)、(和)是维吾尔文中使用频率较高的词，面向同一种语言、不同数据统计出来的高频语法单元也有很大不同。现有的三种识别网页语言的技术中，基于高频词的网页语言识别技术相对其它两种方法较为有效，但是该技术仅仅考虑了语言单元的绝对频率、没有考虑不同领域文本中的用词特点，因此网页语言的识别精度差异较大。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种传统蒙古文网页识别方法，以较高准确率和较高效率实现传统蒙古文网页的识别。

为实现上述目的，本发明提供了一种传统蒙古文网页识别方法，所述方法包括：

获取并统计传统蒙古文网页语料库中各个词的词频TF_i和文档频率DF_i，其中，i≥0；

根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值F_i；

由所述传统蒙古文网页语料库的各个词中，根据F_i的值由大到小，选取前第一数量个词，并对所述前第一数量个词的F_i值进行累加，得到第一累加和；

获取并统计待识别网页中所述前第一数量个词的词频TF_j，其中，j≥0；

对所述待识别网页中前第一数量个词的TF_j值进行累加，得到第二累加和；

当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时，确定所述待识别网页为传统蒙古文网页。

另一方面，本发明还提供了一种传统蒙古文网页识别装置，所述装置包括：

第一获取单元，用于获取并统计传统蒙古文网页语料库中各个词的词频TF_i和文档频率DF_i，其中，i≥0；

第一计算单元，用于根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值F_i；