[发明专利]从非结构化资源挖掘短语对有效
申请号: | 201080023190.9 | 申请日: | 2010-05-14 |
公开(公告)号: | CN102439596A | 公开(公告)日: | 2012-05-02 |
发明(设计)人: | W·B·多兰;C·J·布罗克特;J·J·卡斯蒂略;L·H·范德温德 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06F17/26 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 蔡悦 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 资源 挖掘 短语 | ||
1.一种用于使用电气数据处理功能来创建用于训练统计翻译模型的训练集的方法(600),包括:
构建(606)查询;
向电气数据检索模块呈现(608)所述查询,所述检索模块被配置成基于所述查询来在非结构化资源内执行搜索操作;
从所述检索模块接收(610)结果集,所述结果集提供由所述检索模块所标识的结果项,作为所述搜索操作的结果;以及
对所述结果集执行(612)处理,以产生结构化训练集,所述训练集标识所述结果集内的所述结果项对,
所述训练集提供一个基础,通过该基础,电气训练系统能够学习所述统计翻译模型。
2.如权利要求1所述的方法,其特征在于,所述检索模块是搜索引擎,并且其中所述非结构化资源是可通过网络环境被访问的集合资源项。
3.如权利要求2所述的方法,其特征在于,所述网络环境是广域网。
4.如权利要求1所述的方法,其特征在于,所述执行处理包括基于至少一个考虑因素来约束所述结果集中的所述结果项。
5.如权利要求4所述的方法,其特征在于,所述约束包括基于与结果项相关联的评分,将所述结果项标识为用于成对匹配的候选。
6.如权利要求4所述的方法,其特征在于,所述约束包括基于所述结果项和与所述结果集相关联的相应的词汇签名之间的一致性,将所述结果集标识为用于成对匹配的候选。
7.如权利要求4所述的方法,其特征在于,所述约束包括基于与相应的结果项对相关联的相似度分数,将所述结果项标识为用于成对匹配的候选。
8.如权利要求4所述的方法,其特征在于,所述约束包括基于所述结果项和已标识的结果项的集群之间的关联,标识用于成对匹配的候选。
9.如权利要求1所述的方法,其特征在于,所述执行处理包括,对于每一个结果集,标识所述结果集内的结果项对。
10.如权利要求1所述的方法,其特征在于,所述结果集内的所述结果项对应于单语种文本内容。
11.如权利要求1所述的方法,其特征在于,所述结果集内的所述结果对应于双语文本内容。
12.如权利要求1所述的方法,其特征在于,所述结果项包括由所述检索模块从所述非结构化资源检索到的文本段,所述文本段对应于所述非结构化资源内的相应的资源项的摘录。
13.如权利要求1所述的方法,其特征在于,还包括基于所述训练集来生成所述统计翻译模型,并应用所述统计翻译模型,所述应用包括下列各项中的一项:
使用所述统计翻译模型来扩展搜索查询;
使用所述统计翻译模型来促进文档索引决策;
使用所述统计翻译模型来修改文本内容;或
使用所述统计翻译模型来扩展广告信息。
14.一种用于创建用于训练统计翻译模型(102)的训练集的电气挖掘系统(104),包括:
被配置成构建查询的查询呈现模块(112);
被配置成执行下列操作的接口模块(114):
向检索模块(116)呈现所述查询,所述检索模块(116)被配置成基于所述查询来在非结构化资源(110)内执行搜索操作;以及
从所述检索模块(116)接收结果集,所述结果集提供由所述检索模块(116)所标识的结果项,作为所述搜索操作的结果;以及
训练集准备模块(120),所述训练集准备模块(120)被配置成对所述结果集执行处理以产生结构化训练集,所述训练集标识所述结果集内的所述结果项对,
所述训练集提供一个基础,通过该基础,电气训练系统(106)可以学习所述统计翻译模型(102),
所述结果集内的所述结果项包括由所述检索模块(116)从所述非结构化资源检索到的文本段,所述文本段至少对应于所述非结构化资源内的相应的资源项的句子段,所述资源项没有彼此之间的预先标识的关系。
15.如权利要求14所述的挖掘系统,其特征在于,所述结果集内的所述结果项对应于单语种文本内容,由所述训练系统所产生的所述统计翻译模型被用来在单一语言内的语义相关的短语之间映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080023190.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种甘蓝型油菜低亚麻酸分子标记及其制备方法与应用
- 下一篇:快速计算机启动