[发明专利]一种文本处理的方法、装置、存储介质及电子设备有效
申请号: | 202110392521.6 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113204637B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 汪沁;富饶;侯培旭;陆源源;冉祥映;华镇 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 存储 介质 电子设备 | ||
本说明书公开了一种文本处理的方法、装置、存储介质及电子设备,根据预设的分句规则对原始文本进行处理,得到多个子句,并通过预测模型确定任意两个子句之间的句间关系紧密程度表征值。根据各子句之间的句间关系紧密程度表征值,对各个子句进行合并,根据合并结果,得到至少一个备选摘要。本方法在生成备选摘要时,考虑了原始文本中的每个子句与其他子句的句间关系紧密程度,根据子句之间的句间关系紧密程度对各子句进行合并,并根据合并结果确定了备选摘要,保证了备选摘要包含的子句之间的语义相同,从而保证生成的备选摘要的准确性。
技术领域
本说明书涉及互联网技术领域,尤其涉及一种文本处理的方法、装置、存储介质及电子设备。
背景技术
随着互联网技术的发展,越来越多的用户会将自己创作的用户生产内容(User-Generated Content,UGC)发布在各类客户端中,例如,用户在一家餐厅消费后,将自己的感受以UGC的形式发布出来。为了方便其他用户迅速了解到短文的内容,客户端会从字数较多的UGC中截取出符合字数限制的短句作为摘要展示在推荐页面中。
在现有技术中,生成摘要的方式主要是根据标点符号将原始UGC拆成多个子句后,再根据标点符号前后相邻的两个词,预测出描述同一主题的整句的开头和结尾,根据预测结果将多个子句合并,作为备选摘要。后续地,可根据不同业务需求,在多个备选摘要中选择出一个合适的备选摘要作为原始UGC的摘要展示出来。
但是,上述方法在确定备选摘要时,只是依赖了与标点符号相邻的前后两个词,并未考虑到每个子句对应的上下句的实际语义,从而容易导致根据各个子句生成的备选摘要的语义与上下句的语义不相符,最终生成的摘要的语义也会跟原始UGC的语义大相径庭。
由此可见,备选摘要决定着最终展示出来的摘要的准确性,因此,如何生成准确的备选摘要是个亟待解决的问题。
发明内容
本说明书提供一种文本处理方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种文本处理方法,包括:
根据预设的分句规则,对原始文本进行处理,得到所述原始文本中包含的子句;
针对任意两个子句,将该两个子句输入预测模型,得到所述预测模型的输出的该两个子句之间的句间关系紧密程度表征值;
根据各子句之间的句间关系紧密程度表征值,对各子句进行合并;
根据合并结果,得到至少一个备选摘要。
可选地,将该两个子句输入预测模型,具体包括:
将该两个子句以及该两个子句在所述原始文本中的顺序输入预测模型。
可选地,根据各子句之间的句间关系紧密程度表征值,对各子句进行合并之前,所述方法还包括:
针对任意两个子句,确定该两个子句之间的句法特征;
将具有指定句法特征的两个子句进行合并,并重新作为一个子句。
可选地,根据各子句之间的句间关系紧密程度表征值,对各子句进行合并,具体包括:
根据各个子句之间的句间关系紧密程度表征值,对所述原始文本中相邻的各子句进行合并。
可选地,根据各个子句之间的句间关系紧密程度表征值,对所述原始文本中相邻的各子句进行合并,具体包括:
根据各个子句在所述原始文本中的先后顺序,确定第一个子句为指定子句;
确定所述指定子句的下一个子句作为待合并子句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110392521.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于5G城市部件传感器的信息处理方法及物联网云平台
- 下一篇:四通阀