[发明专利]自动生成主题内容摘要的系统和方法有效
| 申请号: | 201880045817.7 | 申请日: | 2018-06-15 |
| 公开(公告)号: | CN110892399B | 公开(公告)日: | 2023-05-09 |
| 发明(设计)人: | 马吕斯·多恩巴尔;斯里尼瓦桑·萨提亚·萨米尔·库马尔·希武库拉;贾德森·邓纳姆;瑞克·米斯拉;米歇尔·格雷戈里 | 申请(专利权)人: | 爱思唯尔有限公司 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/34;G06F16/9535;G06F16/93 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 程钢 |
| 地址: | 美国纽*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自动 生成 主题 内容摘要 系统 方法 | ||
一种自动生成主题内容摘要的方法包括接收对于概念的分类和文本语料库。所述方法进一步包括:基于所述分类从所述文本语料库生成具有对应于所述概念的术语注释的有注释的数据集;将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;确定针对所述术语注释的特征;和从所述定制生成的文件对象提取片段,其中所述片段中的每一个对应于所述定制生成的文件对象的一章节。所述方法进一步包括:基于所述特征对所述片段评分,使得所述片段中的每一个对应于评分;当符合一个或多个片段过滤条件时,过滤来自所述片段的一个或多个片段;基于所述评分将所述片段排名成针对所述概念的有序列表;和将所述有序列表提供到用户计算装置。
相关申请的交叉引用
本申请主张2017年6月16日年提交的美国临时申请第62/520,991号的权益,所述申请的内容在此被以引用的方式全部并入。
技术领域
本说明书大体涉及自动生成主题内容摘要的系统和方法,并且更具体地说,提取对应于内容摘要的文本语料库内的概念的片段和定义的系统和方法。
背景技术
随着电子内容的数量和密度增大,研究员、作家、教授、学生等面临着搜索、剖析和识别与其所关注的相应领域有关的质量主要参考的增大挑战。当前,许多人利用可公开获得的可搜索内容(诸如,维基百科)来获得针对概念的另外信息。然而,这些来源不满足对于针对概念的权威信息的需求。即,许多研究员、作家、教授、律师、学生等寻找途径来在其通常工作流内获得另外信息,诸如,来自书本、期刊文章、案例法和/或其它参考数据库的另外信息。另外,不仅需要能够获取这些更主要和权威类型的文献,而且还需要可用来进一步确定特定来源是否与其所关注的特定概念或领域有关的内容摘要。
发明内容
在一个实施例中,一种自动生成主题内容摘要的方法包括:在计算装置处接收对于概念的分类;和在所述计算装置处接收未结构化的文本语料库。所述方法进一步包括:基于所述分类从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释;将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;针对所述一个或多个术语注释中的每一个确定一个或多个特征;和从所述定制生成的文件对象提取针对所述概念的多个片段,其中所述多个片段中的每一个对应于所述定制生成的文件对象的一章节。所述方法进一步包括基于所述一个或多个特征对所述多个片段中的每一个评分,使得针对所述概念的所述多个片段中的每一个对应于综合评分,其中所述一个或多个特征包括以下中的至少一个:所述概念在所述章节中第一次出现的相对偏移、所述概念在所述章节中最后一次出现的相对偏移、所述概念在所述章节中总出现次数、所述章节中的语言符号的记数或在所述概念与所述章节的标题之间的相似度等级。所述方法进一步包括:当符合一个或多个片段过滤条件时,从所述多个片段滤出一个或多个片段;基于所述综合评分,将所述多个片段排名成针对所述概念的有序片段列表,其中所述有序片段列表中的第一片段是排名第一的片段并且比所述有序片段列表中的第二片段与所述概念更加相关;和将所述有序片段列表提供到用户计算装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于爱思唯尔有限公司,未经爱思唯尔有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880045817.7/2.html,转载请声明来源钻瓜专利网。





