[发明专利]文档的基于命名实体的类别标签添加在审
申请号: | 201880027518.0 | 申请日: | 2018-04-06 |
公开(公告)号: | CN110546633A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | V·R·格德卡尔;P·纳弥;K·慕克吉 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 72002 永新专利商标代理有限公司 | 代理人: | 张立达<国际申请>=PCT/US2018 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 文档集合 工具识别 语义分析 合适子集 主题类别 子集 集合 | ||
描述了一种用于代表用户将主题类别归于所收集文档集合中的文档的工具。针对该文档集合中的每个文档,基于对该文档的语义分析,该工具识别该文档的一个或多个直接主题。该工具将针对该文档所识别的直接主题归于该文档。基于跨该集合的文档的语义分析,该工具识别每个针对该文档集合的合适子集的一个或多个共同主题。该工具将每个所识别的共同主题归于该文档集合中它针对其被识别的子集中的每个文档。
背景技术
电子文档可以包含诸如文本、电子表格、幻灯片、图解、示图、和图像之类的内容。
浏览器是显示诸如网页之类的文档的应用。一些常规浏览器允许用户收集文档集合,例如通过对它们手动添加书签;将它们手动添加至文档阅读列表;或者在用户访问它们时将它们自动添加至历史列表。通常而言,用户能够查看这样所收集的文档集合以向他或她提醒与它们交互的历史,并且从该集合中选择个体文档来阅读。
发明内容
提供了该发明内容以用简化的形式引入对以下的具体实施方式中进一步描述的概念的选择。应当理解的是,该发明内容不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
描述了一种用于代表用户将主题类别归于所收集的文档集合中的文档的工具。针对该文档集合中的每个文档,基于对该文档的语义分析,该工具识别该文档的一个或多个直接主题。该工具将针对该文档所识别的直接主题归于该文档。基于跨该集合的文档的语义分析,该工具识别一个或多个共同主题,所述共同主题中的每个针对该文档集合的合适子集。该工具将所识别的每个共同主题归于所述文档集合中其被识别的子集中的每个文档。
附图说明
图1是示出了一些实施例中该工具在其中操作的环境的网络示图。
图2是这样的框图,其示出了通常被包含在该工具在其上操作的至少一些计算机系统和其他设备之中的组件中的一些。
图3是示出了一些示例中由该工具所执行以确定直接类别的过程的流程图。
图4是示出了一些示例中由该工具所获取或构建的命名实体“George Lucas”的样本实体关系图的图示图。
图5是示出了一些示例中由该工具所获取或构建的命名实体“Harrison Ford”的样本实体关系图的图示图。
图6-8是示出了示例中由该工具所获得并处理以便为六个另外的文档选择直接类别的另外的图的图示图。
图9是示出了一些示例中由该工具用来存储被归于文档的类别以供特定用户使用的文档类别表格的样本内容的数据结构图。
图10是数据结构图,其示出了一些示例中由该工具用来存储针对文档集合中的每个文档所获得的实体关系图间的所有根到叶路径的路径表格的样本内容。
图11是示出了一些示例中由该工具所执行以识别文档集合的共同类别的第一过程的流程图。
图12是示出了由该工具基于上文结合图4-8所讨论的示例所构建的样本主图的图示图。
图13是示出了被更新以反映对共同类别的选择的主图的样本内容的图示图。
图14是示出了被更新以反映对共同类别的选择的路径表格的样本内容的数据结构图。
图15是示出了被更新以反映对共同类别的添加的文档类别表格的样本内容的数据结构图。
图16是示出了一些示例中由该工具所执行以针对文档集合选择共同类别的第二过程的流程图。
图17是示出了一些示例中由该工具所执行以针对文档集合选择新的共同类别的第三过程的流程图。
图18是数据结构图,其示出一些示例中由该工具用来存储针对文档集合中的文档中出现的命名实体所获得的实体关系图间的实体之间的连接模式的父权重表格的样本内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880027518.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页标记中的绑定的扫描
- 下一篇:翻译装置