[发明专利]基于图书阅读行为的图书章节摘要生成方法有效
申请号: | 201410090143.6 | 申请日: | 2014-03-12 |
公开(公告)号: | CN103885935A | 公开(公告)日: | 2014-06-25 |
发明(设计)人: | 鲁伟明;安文佳;吴江琴;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图书 阅读 行为 章节 摘要 生成 方法 | ||
1.一种基于图书阅读行为的图书章节摘要生成方法,其特征在于它的步骤如下:
1)构建图书页面量化阅读行为评分机制:将用户阅读行为按阅读深度由浅到深分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,基于这四个层次得到基于用户阅读行为的图书页面评分机制;
2)句子权重值传播:通过步骤1)的基于用户阅读行为的图书页面评分机制得到图书书页量化得分,将图书章节按句子分割,图书书页量化得分会赋予每个句子初始的权重值,基于句子之间的距离,利用数据流行结构上的排序算法进行句子权重值的传播;
3)图书章节摘要生成:句子权重值得到传播后,将句子权重值加入基于数据重构的文档摘要生成算法中,从图书章节中挑选重要句子作为章节摘要。
2.根据权利要求1中所述的基于图书阅读行为的图书章节摘要生成方法,其特征在于所述的步骤1)为:
2.1将用户阅读某页的行为划分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,不同层次对书页有不同的得分贡献;
2.2使用留存率、流失率和评分指数衰减来衡量阅读到达某个层次的难度,以此来进行评分,图书页面用户留存率是指对于某图书页面来讲,相对于浏览时的用户数,进行到收藏、浅度阅读和深度阅读的留存用户数的比例,图书页面用户流失率是指对于上一步留存用户数,这一步所减少的用户数的比例,
建立基于用户阅读行为的评分公式:
Vi=[(pi+qi)/pi]exp(1-pi) i=1,2,3,4
图书页面用户留存率公式:
pi=Ui/U1 i=1,2,3,4
图书页面用户流失率公式:
其中:Vi为整个用户群体的阅读行为第i步对图书某页的得分贡献;pi为第i步相对于浏览的留存率;qi为第i步相对于第i-1步的流失率;Ui为进行到第i步的用户数;
2.3图书页面访问时间有先后之分,越先访问并标注该图书页面的用户对该页面的贡献越大,基于图书页面关键行为节点的评分机制计算图书页面的重要程度,图书页面的重要程度的综合平分公式如下:
上述式子中:sj为图书第j页的评分值;Wuj为用户u对图书第j页的贡献权重;Tj为图书第j页被访问时间的总和;tuj为用户u对图书第j页的第一次访问的时间;tj为图书第j页第一次被访问的时间;Suj为用户u对图书第j页所到达的关键行为步骤的评分值之和,Vij为用户u对图书第j页所达到第i步关键行为步骤的评分值;L为用户u阅读图书第j页所到达的深度及关键步骤数;
2.4根据以上评分机制的方法能够对图书每一页在书中的重要性给出量化的评分,因为图书阅读群体的差异性,为了避免图书书页评分因访问用户数少而评分高的现象,在实际的书页评价过程中,对访问用户数和评分进行归一化处理,得到了最终的图书页面的综合评分公式如下:
上式中:uj为图书页面j的浏览用户数,sj为对图书页面j的评分,PageScorej为图书书页的评分,利用与平均值比较的方法可知,只有浏览图书页面的用户数和读者对该页面的评分值都很高的时候,综合评分才会高,根据用户阅读行为在图书阅读中的特点,建立基于用户阅读行为的图书页面重要程度评价体系,通过图书页面阅读的四个层次量化用户行为,通过计算四个层次的评价贡献值来定义用户从浏览层次到深度阅读层次到达的难度,最终通过图书页面上用户群体的阅读行为来计算量化该页面的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410090143.6/1.html,转载请声明来源钻瓜专利网。