[发明专利]文档聚类系统和方法无效

专利信息
申请号: 200710085458.1 申请日: 2007-03-05
公开(公告)号: CN101055585A 公开(公告)日: 2007-10-17
发明(设计)人: 车完奎;金晶中;安汉峻 申请(专利权)人: LG电子株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 隆天国际知识产权代理有限公司 代理人: 张浴月
地址: 韩国*** 国省代码: 韩国;KR
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 系统 方法
【权利要求书】:

1.一种文档聚类系统,包括:

文档存储单元,用于存储文档;

文档特征生成单元,用于提取在所述文档存储单元中存储的文档的属性 信息,并且基于所述属性信息生成关于各文档的索引;

文档特征数据库,用于存储所述各文档的索引;

文档检索单元,利用所述索引来检索包含用户输入的查询的文档;

聚类处理单元,包括用于计算检索到的文档的特征向量和代表向量的代 表向量计算器,以及使用所述特征向量和所述代表向量计算文档之间相似度 的相似度计算器;

聚类数据库,存储由聚类处理单元聚类的文档;以及

输出单元,将作为检索结果所获得的文档列表提供给客户端,所述输出 单元的文档选择部分允许用户单独选择所检索到的文档,所述输出单元的聚 类请求部分基于所选文档的相似度来执行文档的聚类处理,通过所述客户端 的聚类数量输入部分输入文档聚类的数量,以及通过所述客户端的文档数量 输入部分输入每个聚类的文档数量。

2.根据权利要求1所述的系统,其中所述代表向量计算器基于在每个 检索到的文档中包含的关键词的出现频率来计算特征向量。

3.根据权利要求1所述的系统,其中所述代表向量是具有在多个文档 特征向量的绝对值中最大绝对值的向量。

4.根据权利要求1所述的系统,其中所述相似度计算器利用代表向量 和特征向量之间的内积而获得的值来确定文档之间的相似度。

5.根据权利要求1所述的系统,其中所述文档是专利文档,并且

所述聚类处理单元还包括字段聚类单元,其使用组成所述专利文档的标 记项对彼此相似的文档进行聚类处理。

6.根据权利要求1所述的系统,其中所述聚类处理单元将所述代表向 量计算器计算的代表向量和所聚类的文档存储在所述聚类数据库中。

7.根据权利要求6所述的系统,其中所述文档存储单元存储由网络机 器人提供的新文档,以及

在新文档提供给文档存储单元时,所述聚类处理单元使用关于新文档的 特征向量和存储在所述聚类数据库中的代表向量来对新文档进行聚类处理。

8.根据权利要求7所述的系统,其中所述聚类处理单元还包括聚类数 据库管理器,用于管理在所述聚类数据库中存储的已聚类的文档和用于聚类 处理的代表向量,以及

所述聚类数据库管理器执行新文档的聚类处理。

9.根据权利要求1所述的系统,其中所述文档特征生成单元利用包含 在每个文档中的特定字段的关键词来生成索引,以及

所述聚类处理单元计算关于文档的特定字段的特征向量和代表向量。

10.根据权利要求9所述的系统,其中所述聚类处理单元还包括字段聚 类单元,用于根据文档之间的特定字段相似度对文档进行聚类,

其中所述字段聚类处理单元基于由所述代表向量和所述特征向量之间 的内积值除以所述特征向量的绝对值的平方而获得的值来确定字段相似度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于LG电子株式会社,未经LG电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710085458.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top