[发明专利]上下文敏感短语标识在审
| 申请号: | 201680014064.4 | 申请日: | 2016-03-11 |
| 公开(公告)号: | CN107548494A | 公开(公告)日: | 2018-01-05 |
| 发明(设计)人: | T·卡普勒;B·凯夫尔;P·J·斯腾加德 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06F17/24 |
| 代理公司: | 北京市金杜律师事务所11256 | 代理人: | 王茂华 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 上下文 敏感 短语 标识 | ||
1.一种用于处理来自至少一个文本信息源的文本信息的计算设备,所述计算设备包括:
处理器,作为所述计算设备的功能部件并且被配置为执行用于处理所述文本信息的指令;
侦听器部件,被配置为从所述至少一个源接收所述文本信息;
上下文分析器,被耦合到所述侦听器部件并且被配置为生成相对于所述文本信息的上下文信息;
内容分析器,被耦合到所述侦听器部件并且被配置为从所述文本信息中标识n元语法集合并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,所述概率数据结构确定给定元素是否为集合的成员;以及
索引部件,被配置为对所述过滤后的内容进行索引。
2.根据权利要求1所述的计算设备,其中所述侦听器部件是社交侦听器部件并且其中所述至少一个文本信息源包括社交网络。
3.根据权利要求1所述的计算设备,其中所述侦听器部件被配置为从所述至少一个文本信息源接收文本信息流。
4.根据权利要求1所述的计算设备,其中所述概率数据结构包括布隆过滤器。
5.根据权利要求4所述的计算设备,其中所述布隆过滤器包括多个层,其中第一层为对第二层的输入。
6.根据权利要求4所述的计算设备,其中所述计算设备被配置为重置所述布隆过滤器。
7.根据权利要求6所述的计算设备,其中所述计算设备被配置为当所述布隆过滤器被填充到所选择的阈值时重置所述布隆过滤器。
8.根据权利要求1所述的计算设备,其中所述内容分析器被配置为向所述文本信息应用文本标记化以对所述文本信息进行标记化。
9.根据权利要求8所述的计算设备,其中所述内容分析器还被配置为分析所述文本信息的格式。
10.根据权利要求9所述的计算设备,其中所述内容分析器还被配置为从所述文本信息去除停止词。
11.根据权利要求10所述的计算设备,其中所述内容分析器还被配置为去除所述文本信息中的统一资源定位符。
12.根据权利要求1所述的计算设备,其中所述内容分析器被配置为将至少一些n元语法折叠成具有较高出现得分的匹配的n元语法。
13.根据权利要求1所述的计算设备,并且还包括用户界面部件,所述用户界面部件被配置为接收规定上下文的输入查询并且基于所规定的上下文和所索引的过滤后的内容来提供查询结果。
14.根据权利要求1所述的计算设备,其中所述过滤后的内容的索引被存储在所述计算设备的数据存储库中。
15.一种用于提供与上下文敏感短语的交互的计算设备,所述计算设备包括:
处理器,作为所述计算设备的功能部件并且被配置为执行用于处理社交媒体文本信息的指令;
数据存储库,包含过滤后的社交媒体文本信息的索引;以及
用户界面部件,被配置为接收感兴趣的上下文并且使用所述过滤后的社交媒体文本信息的索引来提供结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680014064.4/1.html,转载请声明来源钻瓜专利网。





