[发明专利]对海量文档库的文档分类的方法有效
申请号: | 201210593096.8 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103049568A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 江潮 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 文档 分类 方法 | ||
技术领域
本发明涉及计算机领域,具体而言,涉及一种对海量文档库的文档分类的方法。
背景技术
翻译参考文献库(以下简称参考库),是一个有海量文档的辅助翻译资源的文档库,用一般的相似性检索的方法对其按一定的行业、学科、领域进行分类,需要进行非常巨大的文本相似性匹配计算,耗费的时间和空间都是系统很难承受的。
通过大型术语语料库对参考库中的文档进行术语数量的计算,可以对文档进行行业、学科、领域等属性的初步划分,所花费的字符串模式匹配计算大大少于进行文本相似性匹配计算的计算量。
大型术语语料库是一个包含术语标注信息、具备多种索引结构的术语语料的大集合,其规模一般在百万到千万级别,大的可以到亿级。本方法需用到的标注信息有:术语的行业、学科、领域信息,需用到的索引结构为字符顺序索引。
通常要将参考库中的文档按行业、学科、领域的术语数量进行分类的方法,采用用术语库中的术语为关键词在文档中进行字符串匹配,得到每个文档的各行业、学科、领域的术语数量。
由于参考库中的文档是一种未排序的散乱文本空间,用这种方式进行分类,需要用百万、千万乃至上亿计的术语为关键词,在海量的参考库文档中进行顺序匹配,这样耗费的时间也非常巨大(设术语语料库的术语数为n,参考文档库的文档数为m,其中文档的平均词语数为k,则其时间复杂度为o(m×n×k)。),而且整个匹配过程要对参考库中的不同文档的相同词语要反复进行字符串匹配,匹配过程非常重复。
发明内容
本发明旨在提供一种对海量文档库的文档分类的方法,以解决采用术语匹配的方式对参考库的文档分类复杂、耗时较长的问题。
在本发明的实施例中,提供了一种对海量文档库的文档分类的方法,包括:
确定文档库中所有文档的各个关键词、以及每个关键词与其所归属的各个文档的对应关系;
将所述各个关键词逐个在术语库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个文档所归属的行业类别属性;
根据所述对应关系,确定每个文档包含相同的最多的行业类别属性;
将归属最多的行业类别属性作为每个文档的分类。
本发明采取一种反向匹配的思路进行对参考库的文档进行术语检索,即以参考库中(即文档库)中的所有词语作为关键词,在术语语料库中进行匹配,由于术语语料库是个具备字符顺序索引结构的集合,采用二分法在其中进行字符串匹配最多只需要1+log2n次匹配计算(n为术语语料库的术语数),即使在亿级的术语语料库中进行匹配,一个词语在术语语料库中的匹配次数也不超过30次。极大的减少了匹配的次数,简化了匹配过程,提高了对文档分类的效率,实现了海量文档的快速自动分类。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图;
图2示出了另一个实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。参见图1,实施例的步骤包括:
S11:确定文档库中所有文档的各个关键词、以及每个关键词与其所归属的各个文档的对应关系;
S12:将所述各个关键词逐个在术语库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个文档中所归属的行业类别属性;
S13:根据所述对应关系,确定每个文档包含的相同的最多行业类别属性;
S14:最多的行业类别属性作为每个文档的分类。
本发明采取一种反向匹配的思路进行对参考库的文档进行术语检索,即以参考库中(即文档库)中的所有词语作为关键词,在术语语料库中进行匹配,由于术语语料库是个具备字符顺序索引结构的集合,采用二分法在其中进行字符串匹配最多只需要1+log2n次匹配计算(n为术语语料库的术语数),即使在亿级的术语语料库中进行匹配,一个词语在术语语料库中的匹配次数也不超过30次。极大的减少了匹配次数,简化了匹配过程,提高了对文档分类的效率,实现了海量文档的快速自动分类。
优选地,在实施例中,对每个所述文档进行分词处理,去除停用词、无具体意义的词,得到所述各个关键词。
优选地,还包括:确定每个关键词在其所对应的每个文档出现的多个位置信息;其中,所述位置信息的数量等于该关键词在其所对应的每个文档的词频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210593096.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于起吊平移的焊接气瓶自动规整固定装置
- 下一篇:一种焊枪