[发明专利]一种基于主题模型和用户行为数据的文本写作实时推荐方法在审
| 申请号: | 202110396214.5 | 申请日: | 2021-04-13 |
| 公开(公告)号: | CN112989025A | 公开(公告)日: | 2021-06-18 |
| 发明(设计)人: | 黎德锟 | 申请(专利权)人: | 山东科技大学 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33 |
| 代理公司: | 济南知来知识产权代理事务所(普通合伙) 37276 | 代理人: | 张峰 |
| 地址: | 266590 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 主题 模型 用户 行为 数据 文本 写作 实时 推荐 方法 | ||
本发明公开了一种基于主题模型和用户行为数据的文本写作实时推荐方法,包括:对历史文档进行LDA主题模型建模,得到历史文档的主题特征;获取当前写作文档的文本数据,通过计算TextRank算法得到当前文档的topK关键词及词频信息;对文档关键词和各主题的topK关键词取并集;对求取并集后的文档向量与各主题主题词向量计算余弦相似度生成该文档的主题向量,对文档主题向量和各历史文档的主题向量计算余弦相似度并排序,得到相似度矩阵且归一化处理;获取历史文档写作的用户行为数据并建模,计算得到历史文档的个性化评分并归一化处理,结合主题相似度对所有文档综合评分,得到按综合评分进行排序的推荐列表并递减排序,取TOP‑N文档进行推荐。
技术领域
本发明涉及信息技术领域,具体来说数据挖掘和文本推荐领域,更具体地说涉及一种基于主题模型和用户行为数据的文本写作实时推荐方法。
背景技术
在进行公文等文本写作时,写作者在写作过程中会产生大量的历史写作文本,这些历史文本会在写作思路,写作内容上对创作者的写作产生帮助。但是,如何从海量的历史文本中找到符合当前写作文本的数据并进行推荐,是一个需要解决的问题。
目前业界的文本推荐主流方案是使用LDA主题模型进行模型的训练与预测来计算当前写作文本与历史文档向量之间的相似度,然后取相似度TOP-N文档来进行文本推荐。但是该方案存在对短文本预测效果差及模型预测时间长,无法在较短时间内完成文本的实时推荐工作的问题。同时,对于不同的使用者,由于没有获取和分析使用者在写作过程中产生的行为数据,针对相同文本的推荐文档都是相同的,没有针对不同的使用者产生个性化推荐结果。
经过研究发现,若是在文档写作时,通过某种算法计算出该文档的关键词和词频,然后和训练好的主题模型的主题词和词频计算主题相似度而不是直接将该文档作为预测文档进行向量预测,既可以解决短文档由于词数过少在词袋模型中向量稀疏导致预测准确度差的问题,又可以极大提高文本推荐速度,实现根据写作进度进行实时推荐。
同时,个性化推荐系统可以通过收集使用者的历史行为数据,通过对每篇文档的作者的行为数据进行建模,之后再通过计算为每篇文档结合主题评分生成该文档的推荐排序并推送出来,这样推荐的结果为既实现了主题相关,又实现了兼顾写作者行为的个性化推荐。
发明内容:
本发明的目的是解决上述现有技术下的短文本推荐效果差、模型预测时间长及没有针对不同写作者进行个性化推荐的问题,提出了一种基于主题模型和用户行为数据的文本写作实时推荐方法。
本发明提供了一种基于主题模型和用户行为数据的文本写作实时推荐方法,包括:
S1.对历史文档进行LDA主题模型建模,得到历史文档的主题特征。
S2.获取当前写作文档的文本数据,通过计算TextRank算法得到当前文档的topK关键词及词频信息。
S3.对当前文档通过TextRank算法计算出的topK关键词和各主题的topK关键词取并集。
S4.对求取并集后的文档向量与各主题主题词向量计算余弦相似度,生成该文档和各个主题的相似度向量。对文档主题向量和各历史文档的主题向量计算余弦相似度,按照相似度递减排序,得到各文档主题相似度矩阵且归一化处理。
S5.获取历史文档的查看和引用文档数据。同时对这些文档数据进行建模,结合主题相似度评分对所有文档综合评分,得到按综合评分进行排序的推荐列表,按照由高到低的顺序取TOP-N文档进行推荐。
优选地,对历史文档进行LDA主题模型建模,得到历史文档的主题特征通过如下步骤实现:
(1).利用python第三方库读取docx格式文档数据。
(2).对数据进行数据清理,包括去除停用词、分词及统计词频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110396214.5/2.html,转载请声明来源钻瓜专利网。





