[发明专利]文档的基于命名实体的类别标签添加在审
申请号: | 201880027518.0 | 申请日: | 2018-04-06 |
公开(公告)号: | CN110546633A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | V·R·格德卡尔;P·纳弥;K·慕克吉 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 72002 永新专利商标代理有限公司 | 代理人: | 张立达<国际申请>=PCT/US2018 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 文档集合 工具识别 语义分析 合适子集 主题类别 子集 集合 | ||
1.一种用于代表用户将主题类别归于所收集的文档集合中的文档的计算系统,包括:
处理器;以及
具有内容的存储器,所述内容由所述处理器执行以进行以下操作:
针对所述文档集合中的每个文档,
基于对所述文档的语义分析,识别所述文档的一个或多个直接主题;
将针对所述文档所识别的所述直接主题归于所述文档;
基于跨所述集合中的多个文档的语义分析,识别每个针对所述文档集合的合适子集的一个或多个共同主题;
将每个所识别的共同主题归于所述文档集合中所述共同主题针对其被识别的所述子集中的每个文档;以及
使得标识所述文档集合中的文档的信息与针对被归于所述文档的每个直接类别或共同类别的所述类别的视觉指示一起被显示。
2.根据权利要求1所述的计算系统,其中,所述存储器具有内容,所述内容由所述处理器执行以还进行以下操作:
针对所述文档集合中的每个文档,
识别所述文档所引用的一个或多个命名实体;以及
针对所识别的命名实体中的每个命名实体,获得所识别的命名实体的实体关系图,所述实体关系图表示所识别的命名实体与直接或间接地关于所识别的命名实体的命名实体之间的关系,并且其中,所获得的实体关系图在对每个文档的所述语义分析和跨所述集合中的所述多个文档的所述语义分析两者中被使用。
3.一种具有被配置为使得计算系统执行一种用于代表用户将主题类别归于所收集的文档集合中的文档的方法的内容的存储器,所述方法包括:
针对所述文档集合中的每个文档,
基于对所述文档的语义分析,识别所述文档的一个或多个直接主题;
将针对所述文档所识别的所述直接主题归于所述文档;
基于跨所述集合中的所述多个文档的语义分析,识别每个针对所述文档集合的合适子集的一个或多个共同主题;
将每个所识别的共同主题归于所述文档集合中所述共同主题针对其被识别的所述子集中的每个文档;以及
使得标识所述文档集合中的文档的信息与针对被归于所述文档的每个直接类别或共同类别的所述类别的视觉指示一起被显示。
4.根据权利要求3所述的存储器,所述方法还包括:
针对所述文档集合中的每个文档,
识别所述文档所引用的一个或多个命名实体;
针对所识别的命名实体中的每个命名实体,获得所识别的命名实体的实体关系图,所述实体关系图表示所识别的命名实体与直接或间接地关于所识别的命名实体的命名实体之间的关系,并且其中,所获得的实体关系图在对每个文档的所述语义分析和跨所述集合中的所述多个文档的所述语义分析两者中被使用,
所述方法还包括:
将所述实体关系图的集合编译成单个主实体关系图;以及
分析所述主实体关系图以作为用于选择所选择的实体的基础。
5.根据权利要求3所述的存储器,所述方法还包括:
针对所述文档集合中的每个文档,
识别所述文档所引用的一个或多个命名实体;
针对所识别的命名实体中的每个命名实体,获得所识别的命名实体的实体关系图,所述实体关系图表示所识别的命名实体与直接或间接地关于所识别的命名实体的命名实体之间的关系,并且其中,所获得的实体关系图在对每个文档的所述语义分析和跨所述集合中的所述多个文档的所述语义分析两者中被使用,
其中,所获得的实体关系图中的每个实体关系图具有与在所述文档集合中的文档中所引用的所述命名实体相对应的根以及一个或多个叶,所述方法还包括:
整合在所述集合的所述实体关系图中的每个实体关系图中出现的根到叶路径的集合;以及
分析所述根到叶路径的集合以作为用于选择所选择的实体的基础。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880027518.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页标记中的绑定的扫描
- 下一篇:翻译装置