[发明专利]基于文本语义挖掘的标准化自动建档方法有效

申请号：	201410777530.7	申请日：	2014-12-17
公开（公告）号：	CN104572849A	公开（公告）日：	2015-04-29
发明（设计）人：	程宏亮;梁栋;卢耀宗;强劲;张兵;刘华兴;张小平	申请（专利权）人：	西安美林数据技术股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	无	代理人：	无
地址：	710075 陕西省西安市高***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于文本语义挖掘的标准化自动建档方法,其特征在于：从网上爬取文件，利用文本语义，对爬取的文件和本地文件进行信息抽取、关键词提取和自动摘要生成，最后存入信息化系统中。所述信息抽取,采用知识工程的方法建立规则集，自动将信息点从文档中抽取出来，形成结构化数据；所述关键词提取,主要是根据词语在文章的位置和语义，提取关键词，生成关键词索引；所述自动摘要,先设定摘要所要包含的内容，然后从文本中提取对应信息，计算句子间的相似度，抽取包含原文档中关键信息的文本。本发明之标准化自动建档方法，可以使业务人员免于阅读大量的文件，节省时间和人力，方便查询和使用。
搜索关键词：	基于文本语义挖掘标准化自动建档方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于文本语义挖掘的标准化自动建档方法, 其特征在于：将文本语义分析相关技术——信息抽取、关键词提取、自动摘要技术，应用到有一定的内容和格式要求的文本中，形成一种文档标准化自动建档的方法；所述信息抽取,主要是采用自然语言处理方法，首先人工抽取规则，然后对法律文本进行句法和语义分析，采用基于python的正则表达式的方法实现自动化抽取；所述关键词提取,主要是应用基于语义和统计相结合的方法，用基于HowNet的词语相似度计算词语相似度，筛选后形成关键词，并建立关键词索引；所述自动摘要，首先从文本中抽取包含摘要信息的句子，然后计算句子间的相似度，合并句子形成摘要信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安美林数据技术股份有限公司;，未经西安美林数据技术股份有限公司;许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410777530.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于文本语义挖掘的标准化自动建档方法有效

专利文献下载