[发明专利]用于文档构造的文本分段和主题注释无效
| 申请号: | 200480034278.5 | 申请日: | 2004-11-12 |
| 公开(公告)号: | CN1894686A | 公开(公告)日: | 2007-01-10 |
| 发明(设计)人: | J·比德斯;C·迈耶;D·克拉科;E·马图索夫 | 申请(专利权)人: | 皇家飞利浦电子股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 王小衡;王勇 |
| 地址: | 荷兰艾*** | 国省代码: | 荷兰;NL |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种方法、计算机程序产品和计算机系统,用于通过利用对注释的训练数据进行训练的统计模型来构造未结构化的文本。文本的每个段,其中文本被分段,还被分配给与一组标签相关的主题。用于文本分段和主题分配的统计模型及其与文本段相关的标签清楚地说明了:文本段与主题之间的相关性,各段之间的主题转变,文档内的主题位置以及(取决于主题的)段长度。因此,训练数据的结构信息被开发,以便执行未知文本的分段和注释。 | ||
| 搜索关键词: | 用于 文档 构造 文本 分段 主题 注释 | ||
【主权项】:
1.一种在训练数据的基础上产生用于将文本(100)分成文本段(102)的文本分段模型的方法,其中每个文本段被分配给一个主题(108),该产生文本分段模型的方法包括以下步骤:-产生文本发射模型以提供表示文本段(102)与主题(108)相关的文本发射概率,-产生主题序列模型以提供表示文本内的主题序列的概率的主题序列概率,-产生主题位置模型以提供表示文本(100)内主题(108)的位置的主题位置概率,-产生段长度模型以提供表示分配给主题(108)的文本段(102)的长度的段长度概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦电子股份有限公司,未经皇家飞利浦电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200480034278.5/,转载请声明来源钻瓜专利网。
- 上一篇:提高乙醇代谢和减轻宿醉效应的物质和方法
- 下一篇:一种自动蒸饭机





