[发明专利]上下文敏感短语标识在审
| 申请号: | 201680014064.4 | 申请日: | 2016-03-11 |
| 公开(公告)号: | CN107548494A | 公开(公告)日: | 2018-01-05 |
| 发明(设计)人: | T·卡普勒;B·凯夫尔;P·J·斯腾加德 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06F17/24 |
| 代理公司: | 北京市金杜律师事务所11256 | 代理人: | 王茂华 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 上下文 敏感 短语 标识 | ||
背景技术
世界各地的人们不断地向诸如社交媒体站点、博客、新闻来源等的各种站点贡献内容。然而,难以标识针对特定上下文的对话或内容的某些方面。
上面的讨论仅被提供用于一般背景信息,而非旨在用于帮助确定所要求保护的主题的范围。
发明内容
提供了一种用于处理来自至少一个文本信息源的文本信息的计算设备。计算设备包括作为计算设备的功能部件并且被配置为执行用于处理文本信息的指令的处理器。侦听器部件被配置为从至少一个源接收文本信息。上下文分析器被耦合到侦听器部件,并且被配置为生成相对于文本信息的上下文信息。内容分析器被耦合到侦听器部件,并且被配置为从文本信息标识n元语法集合,并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,概率数据结构确定给定元素是否为集合的成员。索引部件被配置为对过滤后的内容进行索引。
提供本发明内容以便以简化的形式介绍概念的选择,这些概念在下面的具体实施方式中进一步描述。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景技术中指出的任何或所有缺点的实现。
附图说明
图1是根据一个实施例的短语标识架构的框图。
图2是根据一个实施例的从各种面向公众的站点对内容进行分析和索引的方法的流程图。
图3是根据一个实施例的用于从各种面向公众的站点搜索内容索引的方法的流程图。
图4是示出被部署在云计算架构中的图1所示的架构的框图。
图5-7示出可以在先前图中讨论的架构中使用的移动设备的各种示例。
图8是可以在先前图中陈述的架构的各种部分中使用的计算环境的一个示例的框图。
具体实施方式
目前可以基于训练后的语言模型来从文本提取关键短语。然而,这样的技术在计算上是密集的,并且不适合于处理大量的流社交媒体内容。此外,社交媒体内容越来越成为最相关的内容中的一些,该最相关的内容用于非常快速和动态地标识跟踪这样的内容的事件或主题。
图1是短语标识架构100的一个示例的框图。架构100说明性地包括计算系统102和面向公众的站点或源104的集合。作为示例,面向公众的站点104提供由计算系统102分析和索引的内容源。面向公众的站点104可以包括但不限于社交网络106、社区站点108、博客110、新闻媒体站点112以及各种各样的其他面向公众的站点114。社交网络106包括但不限于以下网络,诸如facebook.com、instagram.com、Google+、twitter.com以及现在知道的或稍后开发的允许和支持大量用户之间的交互的其他站点或网络。社区站点108包括但不限于围绕用户社区的感兴趣的特定主题而形成的个人电子公告牌或其他形式的消息站点。此外,社区站点108还可以包括地理社区以及例如城市感兴趣的站点。博客110可以包括但不限于由个人或相对较小的个人群体定期更新并且以非正式或对话风格书写的任何站点。新闻媒体站点112包括但不限于任何电子新闻媒体或渠道站点,无论是国际、国家、地区或地方。其他面向公众的站点114包括但不限于任何公开可用的电子信息源。在一个实施例中,这样的站点包括以相对非结构化格式提供的任何定期更新的电子信息源。
计算系统102说明性地包括监测由面向公众的站点104生成的信息的社交侦听器部件116。计算系统102还包括处理器118和用户界面部件120,用户界面部件120通过用户输入机构124生成用户界面显示122。在一个实施例中,处理器118是计算系统102的功能部件,并且被配置为执行用于处理文本信息的指令。用户126说明性地与用户输入机构124交互或致动用户输入机构124,以便控制和操纵计算系统102。计算系统102也可以包括其他项目128。
计算系统102提供用于对从面向公众的站点104接收的内容标识针对特定上下文(包括整个上下文)的对话(例如,主题)的关键方面的框架。在本示例中,对话的关键方面包括在上下文内出现的关键词或短语集合(一个或多个)(例如“CEO退休”、“麻疹爆发”、“电池着火”)。上下文可以是但不限于文本关键词、社交媒体源、地理区域、时间段、作者等中的一个或多个组合。由计算系统102提供的框架能够处理来自面向公众的站点104的非常大量的流社交媒体或其他内容,并且允许用户(例如,用户126)随后在动态地定义的上下文中标识关键对话短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680014064.4/2.html,转载请声明来源钻瓜专利网。





