[发明专利]通讯软件的会话信息摘要方法及系统、设备和存储介质在审
| 申请号: | 201810029512.9 | 申请日: | 2018-01-10 |
| 公开(公告)号: | CN110020421A | 公开(公告)日: | 2019-07-16 |
| 发明(设计)人: | 何刚 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;李梦男 |
| 地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 会话信息 语句 关键语句 通讯软件 摘要结果 存储介质 目标集合 相似度 集合 核心主题 主题维度 会话 条数 分组 清晰 混乱 | ||
本发明公开了一种通讯软件的会话信息摘要方法及系统、设备和存储介质。会话信息摘要方法包括以下步骤:从所述通讯软件中获取会话信息;所述会话信息包括多条语句;计算任意两条语句之间的相似度,根据所述相似度将所述多条语句进行分组,形成不同主题的集合;根据集合中的语句的条数确定目标集合,从目标集合中获取关键语句作为摘要结果。本发明按主题维度获取会话信息中的关键语句,将该关键语句作为摘要结果,实现从会话信息中提取最少的语句表征整个会话信息的核心主题,提高了会话信息摘要的准确性,摘要结果清晰,减少了混乱和迷惑性。并且在会话信息中包含多个主题时,能够更好的识别出核心的会话主题。
技术领域
本发明涉及计算机技术领域,特别涉及一种通讯软件的会话信息摘要方法及系统、设备和存储介质。
背景技术
通讯软件(腾讯QQ、微信、易信、飞信和在线客服系统等)是加强企业与访客互动、朋友之间聊天的必备工具。当用户离线一段时间,有时会有大量的未读会话信息,用户需要阅读大量的未读会话信息才能知道历史会话主题,导致用户体验不佳。因此,如何从大量的未读会话信息中摘出关键语句代表历史会话主题有了迫切需求。
发明内容
本发明要解决的技术问题是为了克服现有技术中通讯软件不能从大量的会话信息中摘出少量最关键语句代表历史会话主题的缺陷,提供一种通讯软件的会话信息摘要方法及系统、设备和存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种通讯软件的会话信息摘要方法,所述会话信息摘要方法包括以下步骤:
从所述通讯软件中获取会话信息;所述会话信息包括多条语句;
计算任意两条语句之间的相似度,根据所述相似度将所述多条语句进行分组,形成不同主题的集合;
根据集合中的语句的条数确定目标集合,从目标集合中获取关键语句作为摘要结果。
较佳地,计算任意两条语句之间的相似度的步骤之前,所述会话信息摘要方法还包括:
过滤所述语句以去除所述语句中的停用词。
较佳地,计算任意两条语句之间的相似度的步骤,具体包括:
将每条语句拆分为若干词单元,并根据所述词单元构建语句的特征向量;
计算任意两条语句的特征向量之间的相似度;
所述词单元为词组和/或汉字。
较佳地,从目标集合中获取关键语句作为摘要结果的步骤,具体包括:
将所述目标集合中所有语句的特征向量构建为目标矩阵;
计算所述目标集合中每条语句的特征向量与目标矩阵的相似度评分;
将相似度评分大于第一评分阈值的关键语句作为摘要结果。
较佳地,从目标集合中获取关键语句作为摘要结果的步骤,具体包括:
基于摘要算法计算所述目标集合中任意两条语句的特征向量的相似度评分;
将相似度评分大于第二评分阈值的关键语句作为摘要结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的通讯软件的会话信息摘要方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的通讯软件的会话信息摘要方法的步骤。
本发明还提供一种通讯软件的会话信息摘要系统,所述会话信息摘要系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810029512.9/2.html,转载请声明来源钻瓜专利网。





