[发明专利]一种用户级别的个性化文本摘要生成方法和系统有效
| 申请号: | 201911151025.0 | 申请日: | 2019-11-21 |
| 公开(公告)号: | CN110941712B | 公开(公告)日: | 2022-09-20 |
| 发明(设计)人: | 王智;易坤;孙立峰 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/335;G06F16/9536 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用户 级别 个性化 文本 摘要 生成 方法 系统 | ||
1.一种用户级别的个性化文本摘要生成方法,其特征在于,包括如下步骤:
S1:采集用户的基本信息以及所述用户在阅读至少一个类别的文本时的注意力分布原始数据;
S2:从所述注意力分布原始数据中提取所述用户的个性化偏好特征,所述个性化偏好特征包括所述用户在不同词性上的注意力分布;
S3:将所述用户的个性化偏好特征和所述文本输入到个性化摘要抽取模块,输出为抽取出来的个性化句子;将所述个性化句子组合成新的文本输入到后续的抽象生成模型中生成个性化文本摘要;
生成个性化文本摘要的方法包括如下步骤:
S31:所述文本输入到个性化摘要抽取模块,执行分句操作,得到句子列表;
S32:采用TextRank算法从内容上对每个所述句子进行评分得到每个所述句子的内容分数;输入所述用户的个性化偏好特征使用多层感知机得到每个所述句子的个性化分数;
S33:使用可训练参数对所述内容分数和所述个性化分数进行融合得到每个所述句子最终的分数;
S34:根据所述句子最终的分数选择分数较高的至少三个句子;
S35:将所述至少三个句子作为输入,使用生成式的短文本摘要模型生成所述个性化文本摘要;
S4:获取新用户的所述基本信息,计算与已有的所述用户的相似度,选择最相似的至少两个用户并获取所述至少两个用户的个性化偏好特征的平均值作为所述新用户的初始化个性偏好特征;
S5:根据所述初始化个性偏好特征获得所述新用户的个性化文本摘要。
2.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,所述基本信息包括:性别,年龄,学历和专业背景,所述性别包括男性、女性;所述年龄包括15岁以下、15-25岁、25-35岁、35-45岁、45岁以上;所述学历包括高中在读、大学在读、本科、硕士和博士;所述专业背景包括计算机、环境、生物、人文、历史、电子、机械、英语、法律、金融和高中生。
3.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,所述类别包括金融、教育、体育、娱乐、科技、军事、汽车、游戏、动漫和文化。
4.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,所述原始数据包括所述用户在25种词性上的注意力分布百分比,包括形容词、区别词、连词、副词、叹词、方位词、语素、成语、前接成分、简称略语、后接成分、习用语、数词、名词、介词、量词、代词、处所词、时间词、助词、动词、标点符号、非语素字、语气词和状态词。
5.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,采用眼动仪采集用户在阅读文本时的注意力分布原始数据。
6.如权利要求1所述的用户级别的个性化文本摘要生成方法,其特征在于,抽象生成模型是神经网络模型,包括Pointer Generator端到端的模型。
7.如权利要求1-6任一所述的个性化文本摘要生成方法,其特征在于,所述新用户的所述初始化个性偏好特征动态更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911151025.0/1.html,转载请声明来源钻瓜专利网。





