[发明专利]分析装置和分析方法有效
申请号: | 201710358435.7 | 申请日: | 2017-05-19 |
公开(公告)号: | CN107797979B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 土屋良介;野尻周平;河合克己;山田仁志夫;神祐介;高井康势 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F40/177 | 分类号: | G06F40/177 |
代理公司: | 北京尚诚知识产权代理有限公司 11322 | 代理人: | 龙淳 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分析 装置 方法 | ||
本发明提供一种分析装置和分析方法,不使用文件的布局属性信息或字词典的附加输入,按每个样式将各种大量的文件进行分类。分析装置具有执行程序的处理器和存储上述程序和电子表格格式的文件组的存储器件。处理器的特征在于,包括:从存储器件获取文件组的获取处理;基于通过上述获取处理所获取的文件组中的文件之间的、包含于各文件的单元格中的字符串和包含字符串的单元格的位置的共同性,将文件组中的文件分类为样式共同的一个以上的共同样式组;和输出基于分类处理的分类结果的输出处理。
技术领域
本发明涉及一种用于分析信息的分析装置和分析方法。
背景技术
在系统开发中,制作了描述系统要求的规范书和描述系统构成要素的设计信息的设计书等的文件。系统开发文件以将大量的规范和设计项目列举在表中为目的,以使用电子表计算软件等的电子表格格式创建。
为了进行系统开发文件的质量检查、充分利用系统开发文件中记载的信息的程序自动生成等的机械化处理,有一种方式是将电子表格格式的系统开发文件的记载内容转换为结构化的信息,用数据库统一管理的方式。
专利文献1公开了一种文件转换装置,其基于按每种文件的样式准备的样式定义信息,将样式不同的多个文件转换为结构化的信息。专利文献2公开了一种使用格式化文件的内容的特征和体裁的特征按每个样式将系统开发文件分类的信息分类方式。专利文献3公开了一种报表识别装置,其使用预先准备的项目名称和项目值的字词典机械地识别各种样式的报表中记载的项目信息。
现有技术文献
专利文献
专利文献1:日本特开2013-257852号公报
专利文献2:日本特开2000-268040号公报
专利文献3:日本特开2011-248609号公报
发明内容
发明要解决的课题
专利文献1的文件转换装置基于按每种样式预先准备的样式定义信息执行文件转换,但是专利文献1没有公开样式定义信息的准备部件。因此,当管理对象的系统开发文件的数量和种类巨大的情况下,通过人工进行样式定义信息的制作需要大量的工时。
此外,专利文献2的信息分类方法不适用于以CSV(逗号分隔值)格式为主的不具有格式和格线的布局属性信息的电子表格格式文件的分类。具体地说,例如专利文献2中公开了“在提取内容的特征时,例如,使用上述TF/IDF法等从文本文件中出现的词汇的类型以及发生频率生成赋予权重的词汇的频率向量,将其作为上述类别的内容的特征。另一方面,在提取体裁的特征时,例如使用求取上述页面中的属性区域的位置的重叠的方法来生成页面中的共同属性区域信息,并将其作为上述类别的体裁的特征”。
此外,在系统开发中,系统的输入设定文件、批量输出的报表文件、应用程序的日志文件等文件,作为不具有布局属性信息的电子表格格式文件被创建或输出。因此,在专利文献2的信息分类方式中,不能在不具有布局属性信息的文件中提取体裁的特征,并且不能对于文件中出现的词汇相似但样式不同的文件进行区别。
此外,专利文献3的报表识别装置在文件的数量和类型非常大的情况下,与样式定义信息同样地需要大量的工时来通过人工创建字词典。
本发明鉴于上述情况而完成,本发明的目的在于不使用文件的布局属性信息或字词典等的附加输入,按每个样式将各种大量的系统开发文件进行分类,机械地生成各样式的样式定义信息。
解决问题的技术手段
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710358435.7/2.html,转载请声明来源钻瓜专利网。