[发明专利]基于文本语义挖掘的标准化自动建档方法有效
申请号: | 201410777530.7 | 申请日: | 2014-12-17 |
公开(公告)号: | CN104572849A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 程宏亮;梁栋;卢耀宗;强劲;张兵;刘华兴;张小平 | 申请(专利权)人: | 西安美林数据技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 无 | 代理人: | 无 |
地址: | 710075 陕西省西安市高*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 语义 挖掘 标准化 自动 建档 方法 | ||
技术领域
本发明涉及一种文本语义分析技术的工程化应用。具体地说是将文本语义分析相关技术(信息抽取、关键词提取、自动摘要)应用到一类文本(有一定的内容和格式要求)中,形成一种文档标准化自动建档的方法。
背景技术
档案的种类很多,如人事档案、财务档案、技术档案、合同档案、案件档案,等等。档案和档案管理,是各企事业单位、政府部门等不可或缺的一项重要工作。
很多企业、政府部门等,都保有大量的文本文件,特别是一些有格式、内容要求的文本文件(如法院的法律文书、公安部门的犯罪案件信息、企业存放的合同等),这些文件是以自由文本形式存在,传统方法进行查询文本信息时,通常只是根据关键字进行查询,需要花费大量的时间查找所要的文件,但这会检索出大量无用的信息,还需要采用信息抽取技术从这些文件中抽取结构化信息,存入信息化系统中,以便提高查询的效率和查询结果的有效性,方便用户使用。
1.网络爬虫
所谓网络爬虫(Web Spider),是一个自动提取网页的程序,它可以从万维网上自动下载网页,并将收集到的信息存储到本地数据库中。网络爬虫用来从互联网上的海量信息中,抓取网页信息。
传统网络爬虫,包括一个协议处理模块,URL处理模块和内容检测模块。其中,协议处理模块用来提供网络爬虫在爬行时所需的网络协议;URL处理模块负责对采集的URL进行排序;内容检测模块用来处理网络上大量存在、内容重复的页面,以提高网络爬虫的工作效率。
传统的网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL列表,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。所有被爬虫抓取的网页会被系统存储,进行一定的分析和过滤。目前主流的网页搜索策略主要有三种,即深度优先、广度优先、最佳优先。
2.文本预处理技术
文本预处理是进行后续挖掘的基础,其主要包括以下几个方面:
分词,对文本信息进行分析,便于提取关键词;常用的分词算法包括:基于字符串匹配的算法、基于理解的分词算法、基于统计的分词算法;
文本表示,要使计算机能够高效地处理真实文本,就必须找到一种理想的形式表示方法,这种表示一方面能够真实地反映文档的内容,另一方面,要有对不同文档的区分能力。常用的文本表示方法有向量空间模型、概念模型、概率模型等;
特征选择:特征选择能剔除不相关或冗余的特征,选出能够很好反映文本内容的词,由此降低文本向量空间维数,提高分类器的分类效率和分类精度。目前已有的特征选择方法比较多,常用的有:词频方法、文档频次方法、信息增益法, 统计量法和互信息方法等;
特征约减,综合考虑各特征,通过原始特征的组合(线性)或转换(非线性)得到的新特征,使其具有更好的分类特征。该方法能够较好地处理多义词(降低精度)、同义词(降低召回率)问题。常用的特征约减算法有潜在语义索引、主成分分析和Fisher线性判决分析。
3.信息抽取技术
信息抽取技术,是指从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并存入数据库,供用户查询和使用。信息抽取的主要过程包括:分词和词性标注;句法分析;抽取所需信息,并填入到模板中;指代合并,处理文本中命名实体的指代重复问题。
信息抽取算法主要包括两种,知识工程方法和机器学习方法:
知识工程方法─ 依靠人工编写抽取模式,使系统能够处理特定知识领域的信息抽取问题,这种方法要求编写抽取模式的知识工程师对该知识领域有深入的了解。而且这些规则很难保证具有整体的系统性和逻辑性,且可移植性差。
机器学习方法─ 利用及其学习技术,让信息抽取系统通过训练文本来获得抽取模式,实现特定领域的信息抽取功能。常用的方法有:基于特征向量的机器学习方法,如支持向量机和神经网络等;基于统计模型的机器学习方法,如隐马尔可夫模型、最大熵模型和条件随机场模型;基于Kernel的机器学习方法,只需直接使用字符串的原始形式作为处理对象,通过计算对象间的核函数来实现信息抽取。但基于机器学习的方法信息抽取需要大量的训练样本,且结果准确率不高。
4.关键词提取技术
关键词提取算法主要由三类:(1)基于统计特征的方法,如词语频率统计;(2)基于词语网络的方法,根据一定规则将文档映射为词语网络,利用词语网络计算词语的关建度;(3)基于语义的方法,利用词语的语义特征提取关键词。
5.自动摘要技术
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安美林数据技术股份有限公司;,未经西安美林数据技术股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410777530.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息点匹配的方法及装置
- 下一篇:一种文本排序方法及设备