[发明专利]文本处理方法、装置、计算机可读存储介质及电子设备有效
申请号: | 202110299495.2 | 申请日: | 2021-03-22 |
公开(公告)号: | CN112800230B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 郝梦圆;柴鹰;孙拔群;王奇文 | 申请(专利权)人: | 贝壳找房(北京)科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/194;G06F40/216;G06Q30/06 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 计算机 可读 存储 介质 电子设备 | ||
本公开实施例公开了一种文本处理方法、装置、计算机可读存储介质及电子设备,其中,该方法包括:获取待处理文本;对待处理文本进行意图分类,得到意图信息序列;基于预设的统计语言模型,确定意图信息序列对应的权重集合;基于意图信息序列对应的权重集合,确定待处理文本对应的描述评分并输出描述评分。本公开实施例可以实现在评分时通过意图信息组合引入待处理文本中的各个句子的上下文信息,使生成的描述评分可以更准确地反映待处理文本的意图,从而有助于更准确地展示评估待处理文本的质量。同时在评分时通过自动设置意图信息组合的权重,实现了无监督地进行评分。
技术领域
本公开涉及计算机技术领域,尤其是一种文本处理方法、装置、计算机可读存储介质及电子设备。
背景技术
目前在一些领域需要对文本进行评估,以确定文本对一些事物的描述是否准确。因此,可以通过对文本进行评分,用评分来衡量文本的质量。
例如,为了向用户推荐某种产品(例如房源),可以利用多媒体通过远程展示的方式,向用户讲解产品的基本信息。这对产品推荐人员的个人展示、讲解能力要求很高。通过专家评估发现:合理的展示辅助工具的使用,具备较好的逻辑性的讲解,有助于吸引用户的注意以及进一步地产品价值转化。
此外,通过对产品推荐人员的展示、讲解行为的评估,可以评判产品推荐人员的表现,进行奖励或惩罚。评估标准,可以通过行业专家经验的大量实践后进行总结得到,再通过语言描述传播给其他人。但该方式存在以下不足:
业务场景变化迅速,某些业务场景下,行业专家不存在;
专家总结可以定性描述,但是经验推理过程难以描述;
专家经验难以对产品推荐人员的线上带看进行定量评估,不能在线对推荐行为进行指导。
发明内容
本公开的实施例提供了一种文本处理方法、装置、计算机可读存储介质及电子设备。
本公开的实施例提供了一种文本处理方法,该方法包括:获取待处理文本;对待处理文本进行意图分类,得到意图信息序列,其中,意图信息序列中的意图信息与待处理文本中的句子相对应;基于预设的统计语言模型,确定意图信息序列对应的权重集合,其中,权重集合中的权重对应于意图信息序列中的意图信息组合,用于表征对应的意图信息组合包括的意图信息的共现概率;基于意图信息序列对应的权重集合,确定待处理文本对应的描述评分并输出描述评分。
在一些实施例中,基于意图信息序列对应的权重集合,确定待处理文本对应的描述评分,包括:确定意图信息序列对应的权重集合的综合权重;基于综合权重,确定待处理文本对应的描述评分。
在一些实施例中,基于综合权重,确定待处理文本对应的描述评分,包括:基于综合权重和预先对预设文本集合中的文本的综合权重进行统计的统计数据,确定待处理文本的排名;基于排名,确定待处理文本的描述评分。
在一些实施例中,基于预设的统计语言模型,确定意图信息序列对应的权重集合,包括:提取预设的至少一个统计语言模型;将所述意图信息序列输入所述至少一个统计语言模型,得到所述至少一个统计语言模型分别输出的权重集合,其中,所述权重集合中的权重分别对应于所述意图信息序列中的意图信息组合,且用于表征对应的意图信息组合包括的意图信息的共现概率;获取得到的至少一个权重集合分别对应的综合权重;基于得到的至少一个综合权重的大小,从至少一个综合权重中确定目标综合权重,并将目标综合权重对应的权重集合确定为意图信息序列对应的权重集合。
在一些实施例中,至少一个统计语言模型中的统计语言模型对应于预设的文本类别信息;方法还包括:将目标综合权重对应的文本类别信息确定为待处理文本的文本类别信息并输出待处理文本的文本类别信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房(北京)科技有限公司,未经贝壳找房(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110299495.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:医疗托架用激光打标机
- 下一篇:一种基于多态URL异常访问行为的识别方法