[发明专利]计算机‑人交互式学习中的特征完成有效
申请号: | 201480039790.2 | 申请日: | 2014-07-11 |
公开(公告)号: | CN105393263B | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | P·Y·西马德;D·M·奇克林;D·G·格朗吉耶;D·X·查理;L·布特欧;C·卡西亚胡拉多苏亚雷斯 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00;G06F17/27 |
代理公司: | 永新专利商标代理有限公司72002 | 代理人: | 张扬,王英 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机 交互式 学习 中的 特征 完成 | ||
1.一种用于机器学习的特征完成的方法,包括:存储第一组数据项,其中,每一个数据项包括词语的文本流;访问字典,其中,所述字典包括词语的列表,所述词语的列表定义能够作为用于训练机器学习模型的输入特征来使用的概念,以利用数据项成为特定类型的数据项的正面例子或者负面例子的概率来对数据项进行评分;提供特征,其中所述特征已经被训练以用于确定位于给定词语位置的词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的概率;以及利用所述字典作为输入特征,对所述机器学习模型进行训练,其中,所述训练包括:A)针对数据项中的文本流中的所述给定词语位置,利用所提供的特征来计算位于所述给定词语位置的所述词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的第一概率,B)检查所述给定词语位置的上下文,其中,所述上下文包括挨在所述给定词语位置之前的多个词语和跟在所述给定词语位置之后的多个词语,并且其中,所述上下文不包括位于所述给定词语位置的所述词语,C)基于所述给定词语位置的所述上下文中的所述词语的函数,计算位于所述给定词语位置的所述词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的第二概率,其中计算所述第二概率包括以下中的一个或多个:1)确定来自给定列表的任何词语是否出现在所述给定词语位置周围的文本窗的中心,其中所述文本窗中的中心词语已被删除,2)确定在所述窗中存在动词还是不存在动词,3)确定存在后面跟着形容词的名词还是不存在后面跟着形容词的名词,或者4)确定给定词语在所述窗中出现的数量,以及D)基于所计算的第一概率,修改所述函数以调整所计算的第二概率。
2.根据权利要求1所述的方法,其中,所述机器学习模型包括分类器和架构器中的至少一个。
3.根据权利要求1所述的方法,其中,修改所述函数以调整所计算的概率包括:A)当位于所述给定词语位置的所述词语处于所述字典之中时,修改所述函数以增加所述概率;以及B)当位于所述给定词语位置的所述词语不处于所述字典之中时,修改所述函数以减小所述概率。
4.根据权利要求1所述的方法,其中,所述上下文是包括紧挨在所述给定词语位置之前的多个词语和紧跟在所述给定词语位置之后的多个词语的滑动窗。
5.根据权利要求1所述的方法,其中,所计算的第一概率是所述第一概率的估计。
6.一个或多个计算机存储介质,所述一个或多个计算机存储介质具有实施在其上的计算机可使用指令,当所述计算机可使用指令被执行时,有助于实现用于机器学习的特征完成的方法,所述方法包括:存储第一组数据项,其中,每一个数据项包括词语的文本流;访问字典,其中,所述字典包括词语的列表,所述词语定义能够作为用于训练机器学习模型的输入特征来使用的概念,以利用数据项成为特定类型的数据项的正面例子或者负面例子的概率来对数据项进行评分;以及利用所述字典作为输入特征,对所述机器学习模型进行训练,其中,所述训练包括:针对所述第一组数据项中的每一个数据项,A)针对所述数据项中的所述文本流中的第一词语位置,检查以所述文本流中的第二词语位置为中心的文本窗,其中,所述文本窗包括一个或多个词语,B)基于所述文本窗中的所述一个或多个词语,使用概率函数来计算在所述第一词语位置处存在与由所述字典中的所述词语所定义的所述概念在语义上相对应的、分离的一个或多个n元语法的概率,C)确定在所述第一词语位置处实际存在或者不存在与由所述字典中的所述词语所定义的所述概念在语义上相对应的、分离的一个或多个n元语法,以及D)基于所确定的实际存在或者不存在与由所述字典中的所述词语所定义的所述概念在语义上相对应的、所述分离的一个或多个n元语法,修改所述概率函数以在正方向或负方向上调整所述概率。
7.根据权利要求6所述的介质,其中,当所述文本窗重叠所述第一词语位置时,从所述文本窗中排除位于所述第一词语位置的一个或多个词语,并且其中,所述第二词语位置与所述第一词语位置不同或者与所述第一词语位置相同。
8.根据权利要求6所述的介质,其中,所述文本窗是包括紧挨在给定词语位置之前的多个词语和紧跟在所述给定词语位置之后的多个词语的滑动窗。
9.根据权利要求6所述的介质,其中,修改所述概率函数以调整所述概率包括:当所述分离的一个或多个n元语法与由所述字典中的所述词语所定义的所述概念在语义上相对应时,修改所述概率函数以增加所述概率。
10.根据权利要求9所述的介质,其中,修改所述概率函数以调整所述概率包括:当所述分离的一个或多个n元语法与由所述字典中的所述词语所定义的所述概念在语义上不相对应时,修改所述概率函数以减小所述概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480039790.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:定制的订阅顾客挽留规程
- 下一篇:网络应用与本地应用之间的渲染委托