[发明专利]一种文本处理方法及装置在审
| 申请号: | 201910666073.7 | 申请日: | 2019-07-23 |
| 公开(公告)号: | CN112364642A | 公开(公告)日: | 2021-02-12 |
| 发明(设计)人: | 乔宏利;权圣 | 申请(专利权)人: | 马上消费金融股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
| 地址: | 404100 重庆市渝北区*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 处理 方法 装置 | ||
本发明提供一种文本处理方法及装置,该方法包括:获取待处理的目标文本中的数值字符串;确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;将所述目标文本中的所述数值字符串替换为对应的所述单字符;对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。通过本发明提供的文本处理方法,在切分文本的过程中可以避免数值字符串被切分为碎片,保证数值字符串的完整性,进而可以提高文本中的数值字符串切分准确性。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种文本处理方法及装置。
背景技术
文本是互联网中重要的交互信息载体。在各种网络通讯工具中,人们大量使用自然语言文本进行交流。因而,文本成为机器学习和自然语言处理中的重要对象。
实际情况中,文本中往往会包括数值字符串,例如,电话号码、身份证号码、邮编等。在对文本进行切分(例如,基于词典的分词或N-Gram切分等)的情况下,容易把完整的数值字符串切分成无意义的碎片。
可见,现有技术中存在对文本中的数值字符串切分准确性较低的问题。
发明内容
本发明实施例提供一种文本处理方法及装置,以解决现有技术中对文本中的数值字符串切分准确性较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文本处理方法。该方法包括:
获取待处理的目标文本中的数值字符串;
确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
将所述目标文本中的所述数值字符串替换为对应的所述单字符;
对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
第二方面,本发明实施例还提供一种文本处理装置。该文本处理装置包括:
获取模块,用于获取待处理的目标文本中的数值字符串;
确定模块,用于确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
第一替换模块,用于将所述目标文本中的所述数值字符串替换为对应的所述单字符;
处理模块,用于对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
第三方面,本发明实施例还提供一种文本处理装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文本处理方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本处理方法的步骤。
本发明实施例中,通过获取待处理的目标文本中的数值字符串;确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;将所述单字符替换所述目标文本中的对应的所述数值字符串;对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。由于文本中的数值字符串均替换为其对应的单字符,这样在切分文本的过程中可以避免数值字符串被切分为碎片,保证数值字符串的完整性,进而可以提高文本中的数值字符串切分准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910666073.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:带有活动板的铰链组件及具有其的冰箱
- 下一篇:荧光光纤温控仪及其控温方法





