[发明专利]基于主题模型的书籍中心内容提取方法及计算设备在审
申请号: | 201911142864.6 | 申请日: | 2019-11-20 |
公开(公告)号: | CN112825110A | 公开(公告)日: | 2021-05-21 |
发明(设计)人: | 柳燕煌 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/34 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 梁倩 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 模型 书籍 中心 内容 提取 方法 计算 设备 | ||
本发明公开了一种基于主题模型的书籍中心内容提取方法及计算设备,其中,该方法包括:获取待处理的书籍章节内容以及书籍章节内容的各个内容组成单元;对书籍章节内容以及各个内容组成单元进行主题分析,得到书籍章节内容的第一主题向量以及各个内容组成单元对应的第二主题向量;计算第一主题向量与各个第二主题向量之间的相似度;根据第一主题向量与各个第二主题向量之间的相似度,确定各个内容组成单元中的至少一个内容组成单元作为书籍章节的中心内容。该方案依据书籍章节内容的主题向量与各个内容组成单元对应的主题向量之间的相似度,快速、便捷地实现了对于书籍章节的中心内容的确定,有效地提高了书籍章节的中心内容的处理效率和准确率。
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于主题模型的书籍中心内容提取方法及计算设备。
背景技术
电子书形式的书籍由于具有获取方便等优势,受到了大量用户的喜爱。为了便于用户快速地了解书籍中各个书籍章节所涉及的内容,书籍阅读平台大多会依据每个书籍章节的中心内容来确定该书籍章节的章节介绍。在现有技术中,对于书籍章节的中心内容的确定,大多是通过书籍处理人员对书籍章节进行阅读与总结的方式来确定的。而书籍阅读平台中一般会存储有几十万本甚至数量更多的书籍,若依据现有的这种处理方式来确定每本书籍的各个书籍章节的中心内容,则需要耗费大量的人力成本和时间成本,存在着处理效率较低的问题;另外,现有的这种处理方式所确定的中心内容主要为书籍处理人员对书籍章节的主观总结,可能无法准确地反映书籍章节实际的中心内容。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于主题模型的书籍中心内容提取方法及计算设备。
根据本发明的一个方面,提供了一种基于主题模型的书籍中心内容提取方法,该方法包括:
获取待处理的书籍章节内容以及书籍章节内容的各个内容组成单元;
对书籍章节内容以及各个内容组成单元进行主题分析,得到书籍章节内容的第一主题向量以及各个内容组成单元对应的第二主题向量;
计算第一主题向量与各个第二主题向量之间的相似度;
根据第一主题向量与各个第二主题向量之间的相似度,确定各个内容组成单元中的至少一个内容组成单元作为书籍章节的中心内容。
根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:
获取待处理的书籍章节内容以及书籍章节内容的各个内容组成单元;
对书籍章节内容以及各个内容组成单元进行主题分析,得到书籍章节内容的第一主题向量以及各个内容组成单元对应的第二主题向量;
计算第一主题向量与各个第二主题向量之间的相似度;
根据第一主题向量与各个第二主题向量之间的相似度,确定各个内容组成单元中的至少一个内容组成单元作为书籍章节的中心内容。
根据本发明的又一方面,提供了一种存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:
获取待处理的书籍章节内容以及书籍章节内容的各个内容组成单元;
对书籍章节内容以及各个内容组成单元进行主题分析,得到书籍章节内容的第一主题向量以及各个内容组成单元对应的第二主题向量;
计算第一主题向量与各个第二主题向量之间的相似度;
根据第一主题向量与各个第二主题向量之间的相似度,确定各个内容组成单元中的至少一个内容组成单元作为书籍章节的中心内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911142864.6/2.html,转载请声明来源钻瓜专利网。