[发明专利]基于主题模型的书籍中心内容提取方法及计算设备在审
| 申请号: | 201911142864.6 | 申请日: | 2019-11-20 |
| 公开(公告)号: | CN112825110A | 公开(公告)日: | 2021-05-21 |
| 发明(设计)人: | 柳燕煌 | 申请(专利权)人: | 掌阅科技股份有限公司 |
| 主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/34 |
| 代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 梁倩 |
| 地址: | 100124 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 主题 模型 书籍 中心 内容 提取 方法 计算 设备 | ||
1.一种基于主题模型的书籍中心内容提取方法,包括:
获取待处理的书籍章节内容以及所述书籍章节内容的各个内容组成单元;
对书籍章节内容以及各个内容组成单元进行主题分析,得到所述书籍章节内容的第一主题向量以及各个内容组成单元对应的第二主题向量;
计算所述第一主题向量与各个第二主题向量之间的相似度;
根据所述第一主题向量与各个第二主题向量之间的相似度,确定所述各个内容组成单元中的至少一个内容组成单元作为书籍章节的中心内容。
2.根据权利要求1所述的方法,所述获取待处理的书籍章节内容以及所述书籍章节内容的各个内容组成单元进一步包括:
按照段落对书籍章节内容进行拆分,得到所述书籍章节内容的各个组成段落作为各个内容组成单元;
或者,按照语句对书籍章节内容进行拆分,得到所述书籍章节内容的各个组成语句作为各个内容组成单元。
3.根据权利要求1所述的方法,所述对书籍章节内容以及各个内容组成单元进行主题分析,得到所述书籍章节内容的第一主题向量以及各个内容组成单元对应的第二主题向量进一步包括:
将书籍章节内容输入至经过训练的主题模型中,得到所述书籍章节内容的第一主题向量;
将各个内容组成单元输入至经过训练的主题模型中,得到所述各个内容组成单元对应的第二主题向量。
4.根据权利要求1所述的方法,所述方法还包括:
将书籍样本集合中的每个书籍样本按照章节进行拆分,得到书籍章节样本集合;
根据所述书籍章节样本集合中的书籍章节样本进行模型训练,得到经过训练的主题模型。
5.根据权利要求4所述的方法,所述根据所述书籍章节样本集合中的书籍章节样本进行模型训练,得到经过训练的主题模型进一步包括:
步骤1,利用所述书籍章节样本集合中的各个书籍章节样本中的所有词,构建词汇表,并随机设置各个书籍章节样本对应至不同训练主题的主题分布概率以及在各个训练主题下生成所述词汇表中的词的词生成概率;
步骤2,针对所述书籍章节样本集合中的任一书籍章节样本,从该书籍章节样本中选择一未曾被选择过的词,并设置该词对应的初始训练主题;
步骤3,根据所述主题分布概率以及所述词生成概率,计算在不同训练主题下该词在该书籍章节样本中的出现概率,并根据所述出现概率确定该词对应的目标训练主题;
步骤4,判断该词对应的初始训练主题是否与该词对应的目标训练主题一致;若是,则执行步骤2;若否,则执行步骤5;
步骤5,根据该词对应的目标训练主题,对该词对应的初始训练主题、所述主题分布概率以及所述词生成概率进行更新,并跳转执行步骤3;
迭代执行上述步骤1至步骤5,直至满足迭代结束条件,得到经过训练的主题模型。
6.根据权利要求1-5任一项所述的方法,所述计算所述第一主题向量与各个第二主题向量之间的相似度进一步包括:
计算所述第一主题向量与任一第二主题向量之间的夹角的余弦值,利用所述余弦值确定所述第一主题向量与该第二主题向量之间的相似度。
7.根据权利要求1-6任一项所述的方法,所述根据所述第一主题向量与各个第二主题向量之间的相似度,确定所述各个内容组成单元中的至少一个内容组成单元作为书籍章节的中心内容进一步包括:
对所述第一主题向量与各个第二主题向量之间的相似度按照从高到低的顺序进行排列,得到各个第二主题向量对应的各个内容组成单元的排列结果;
将排列结果中排列最靠前的内容组成单元确定为书籍章节的中心内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911142864.6/1.html,转载请声明来源钻瓜专利网。





