[发明专利]文本信息处理方法及介质、设备、系统在审
申请号: | 202110609909.7 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113204632A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 朱登龙;邹宇;何蜀波;孙玉霞;刘新;刘洋;余迁 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 钟宗 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 信息处理 方法 介质 设备 系统 | ||
1.一种文本信息处理方法,其特征在于,包括:
建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;
基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;
根据所述丰富度衡量后的文本确定选定的文本集合。
2.根据权利要求1所述的文本信息处理方法,其特征在于,对所述目标文本的信息量进行评价包括:利用信息熵、词性以及依存句法中至少一种确定所述目标文本对应的语句信息量。
3.根据权利要求1所述的文本信息处理方法,其特征在于,所述文本信息处理方法还包括:获取指定产品的信息;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价还包括:评价所述目标文本与所述指定产品的内容关联关系。
4.根据权利要求3所述的文本信息处理方法,其特征在于,所述目标文本与所述指定产品的内容关联关系基于实体识别技术以及知识图谱确定。
5.根据权利要求1所述的文本信息处理方法,其特征在于,所述文本信息处理方法还包括:获取所述目标文本对应的应用场景;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价包括:基于所述应用场景对所述目标文本进行评价。
6.根据权利要求5所述的文本信息处理方法,其特征在于,基于所述应用场景对所述目标文本进行评价包括:
建立对应不同应用场景的评价维度及评价维度分类模型;
基于所述评价维度及评价维度分类模型对所述目标文本进行评价。
7.根据权利要求1所述的文本信息处理方法,其特征在于,在所述建立内容丰富度模型之前还包括:对所述用户的历史文本进行预处理,筛选情感为正向的文本作为所述目标文本。
8.根据权利要求1所述的文本信息处理方法,其特征在于,还包括:
获取用户的个性化要求;
基于所述个性化要求,建立个性化匹配模型;
根据所述个性化匹配模型对所述目标文本或所述丰富度衡量后的文本进行匹配,以得到个性化匹配后的结果;
所述根据所述丰富度衡量后的文本确定选定的文本集合包括:结合所述个性化匹配后的结果以及所述丰富度衡量后的文本确定选定的文本集合。
9.根据权利要求8所述的文本信息处理方法,其特征在于,所述建立个性化匹配模型包括:
采用相同的神经网络结构,分别对已标注的训练集和所述个性化要求的个性化表征语句进行向量特征抽取及变换;
采用余弦形似度衡量两者之间的相关性得分;
利用反向传播方法对模型进行训练,最终满足衡量个性化要求和语句的相关性的模型。
10.根据权利要求1所述的文本信息处理方法,其特征在于,根据所述丰富度衡量后的文本确定选定的文本集合包括:优化所述丰富度衡量后的文本,所述优化包括以下至少一种:进行相似度去重、进行语义匹配以及进行文本优美度判断。
11.根据权利要求1所述的文本信息处理方法,其特征在于,所述根据所述丰富度衡量后的文本确定选定的文本集合包括:对所述丰富度衡量后的文本确进行排序,基于所述排序确定所述选定的文本集合。
12.根据权利要求1所述的文本信息处理方法,其特征在于,所述文本信息处理方法还包括:
确定目标应用场景;
基于所述文本集合,生成符合所述目标应用场景的文本,或者生成符合所述目标应用场景的文本以及标题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110609909.7/1.html,转载请声明来源钻瓜专利网。