[发明专利]利用统计分布对主题进行建模有效

专利信息
申请号: 200810166172.0 申请日: 2008-10-06
公开(公告)号: CN101408885A 公开(公告)日: 2009-04-15
发明(设计)人: 大卫·马尔维特;贾瓦哈拉·贾殷;斯特吉奥斯·斯特吉奥;亚历克斯·吉尔曼;B·托马斯·阿德勒;约翰·J·西多罗维奇;雅尼斯·拉布罗 申请(专利权)人: 富士通株式会社
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京三友知识产权代理有限公司 代理人: 黄纶伟
地址: 日本神奈*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 利用 统计 分布 主题 进行 建模
【说明书】:

技术领域

发明总体上涉及词法分析,具体地说,涉及利用统计分布对主题 进行建模。

背景技术

本申请要求2007年10月5日提交的发明人为David Marvit等、发 明名称为“Techniques for Topic Modeling”的美国临时申请No.60/977,855 的优先权。

一个数据库可包含大量信息,然而查找到相关信息可能比较困难。 可以对文档加标签以便搜索相关信息。然而,在特定情形下,已知的文 档标签技术对于信息定位不够有效。

附图说明

图1示出了利用描述主题的统计分布对主题进行建模的系统的一个 实施例;

图2示出了可以与图1的系统一起使用的亲和度(affinity)模块的 一个实施例;

图3示出了记录基本亲和度的亲和度矩阵的一个示例;

图4示出了记录有向亲和度的亲和度矩阵的一个示例;

图5示出了记录平均亲和度的亲和度矩阵的一个示例;

图6示出了亲和度图的一个示例;

图7示出了可以与图1的系统一起使用的聚类模块的一个实施例;

图8示出了可以与图1的系统一起使用的本体(ontology)特征模块 的一个实施例;

图9示出了可以与图1的系统一起使用的标签模块的一个实施例;

图10示出了确定主题的统计分布的方法的一个示例;

图11示出了通过分析文档的段落来向该文档指配标签的方法的一个 示例;以及

图12示出了响应于所选择的标签来指配标签的方法的一个示例。

具体实施方式

概述

在一个实施方式中,对主题进行建模包括访问由包括词的文档组成 的语料库。选择文档中的词作为关键词。根据关键词对文档进行聚类, 以得到各个群集(cluster),其中每一群集对应于一个主题。针对一个群 集根据该群集的文档中的词生成统计分布。利用针对与一个主题对应的 群集生成的统计分布对该主题进行建模。

示例实施方式

在具体实施方式中,领域本体(domain ontology)的创建及查询包 括以下步骤:

1、收集领域中的文档。在具体实施方式中,文档(document)是词 条(term)的集合。文档可包括可读文本,例如,一本《新约》。文档不 需要以描述形式来包括词,例如,文档可以包括一组单独和共同地描述 图像的内容的用户输入标签(tag)。文档的集合可称为“领域语料库 (domain corpus)”。

2、识别该领域中所关心的词条(“词典词条(dictionary term)”)。 词条的示例包括词(word)(诸如“树”)、短语(phrase)(诸如“图形算法”)、 命名实体(named entity)(诸如“纽约”)等。词条(或概念)可具有不同 的形式。在特定情况下,不同的词用于同一概念,例如,“kidney stones (肾结石)”和“kidney calculi(肾结石)”是指同一概念,即“肾结石”。在 其它情况下,词干(word stem)可具有多种词形变化,例如,词干“tree” 具有词形变化“tree”和“trees”。在具体实施方式中,可将同一词条的各种 形式映射为同一词条而进行处理。在文档中可出现词典词条的任意适当 形式,但是特定的词典词条不必出现在任意文档中。

识别词典词条的方法的示例包括利用特定领域的人工生成的词典, 例如,医学词典。在具体实施方式中,可由语料库中的文本串集自动地 生成一系列词典词条。可以按照频度对这些文本串进行索引及排序,并 且可选择频度在阈值以上的文本串。可使用其它适当的统计方法来确定 词条。在具体实施方式中,“词”可与“词条”及“词典词条”互换。

3、计算给定的共现语境(co-occurrence context)中词典词条的共现 次数。如果两个词条都在同一共现语境中至少出现一次,则这两个词条 共现。共现语境的示例包括文档和段落。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810166172.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top