[发明专利]一种文本处理方法、装置、可读介质及电子设备在审
| 申请号: | 201911224706.5 | 申请日: | 2019-12-04 | 
| 公开(公告)号: | CN111178063A | 公开(公告)日: | 2020-05-19 | 
| 发明(设计)人: | 李红杰;王义;刘水清 | 申请(专利权)人: | 南京医渡云医学技术有限公司;南京懿医云大数据科技有限公司 | 
| 主分类号: | G06F40/289 | 分类号: | G06F40/289 | 
| 代理公司: | 北京嘉科知识产权代理事务所(特殊普通合伙) 11687 | 代理人: | 刘力 | 
| 地址: | 210043 江苏省南*** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 文本 处理 方法 装置 可读 介质 电子设备 | ||
本发明公开了一种文本处理方法、装置、可读介质及电子设备,包括:从待处理文本中获取待处理词;基于所述待处理词,从所述待处理文本中识别得到相应的目标词;将所述待处理文本中的待处理词替换为所述目标词,以获得目标文本。获取省略了文本信息的待处理词,并通过待处理词确定目标词,进而根据目标词补充省略的文本信息,而确定目标文本;由此使得目标文本中不再存在文本信息的省略,可以通过NLP进行语义分析。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本处理方法、装置、可读介质及电子设备。
背景技术
自然语言处理(Natural Language Prosessing,简称NLP)是指计算机对人类语言(包括语音和文本)进行分析,以判断其含义。
对于以文字形式记载的自然语言,很多情况下为了方便书写,都会出现省略词语,而目前基于NLP技术,无法准确的对这种省略词语分析。
发明内容
本发明提供一种文本处理方法、装置、可读介质及电子设备,通过找到省略词语对应的完整的文本信息并进行替换,以解决NLP技术无法分析识别省略词语的技术问题。
第一方面,本发明提供了一种文本处理方法,包括:
从待处理文本中获取待处理词;
基于所述待处理词,从所述待处理文本中识别得到相应的目标词;
将所述待处理文本中的待处理词替换为所述目标词,以获得目标文本。
优选地,所述基于所述待处理词,从所述待处理文本中识别得到相应的目标词包括:
确定所述待处理词对应的第一关联词;
从所述待处理文本中识别得到与所述第一关联词相关联的第二关联词;
获取所述第二关联词对应的文本信息,以作为所述目标词。
优选地,所述确定待处理词对应的第一关联词包括:
从所述待处理文本中,获取包括所述待处理词的第一文本段落;
从所述第一文本段落中,确定所述待处理词对应的第一关联词。
优选地,所述从所述待处理文本中识别得到与所述第一关联词相关联的第二关联词包括:
查询所述待处理文本中位于所述第一文本段落之前的第二文本段落,并从所述第二文本段落中识别得到所述第二关联词。
优选地,所述根据所述目标词确定目标文本包括:
在所述第一文本段落中,将所述待处理词替换为所述目标词;并将替换后的所述待处理文本确定为所述目标文本。
优选地,所述根据所述目标词确定目标文本包括:
根据所述目标词和所述第一关联词确定第三文本段落;
在所述待处理文本中,将所述第一文本段落替换为所述第三文本段落;
将替换后的所述待处理文本确定为所述目标文本。
优选地于,还包括:
对所述目标文本进行切词处理,得到多个目标段落;
从所述多个目标段落中提取文本信息,并将所述文本信息进行结构化处理。
第二方面,本发明提供了一种文本处理装置,包括:
待处理词获取模块,用于从待处理文本中获取待处理词;
目标词识别模块,用于基于所述待处理词,从所述待处理文本中识别得到相应的目标词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京医渡云医学技术有限公司;南京懿医云大数据科技有限公司,未经南京医渡云医学技术有限公司;南京懿医云大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911224706.5/2.html,转载请声明来源钻瓜专利网。





