[发明专利]辅助文本标注方法、装置、设备及其存储介质有效
申请号: | 202010266600.8 | 申请日: | 2020-04-07 |
公开(公告)号: | CN111611779B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 张雨辰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F40/237 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辅助 文本 标注 方法 装置 设备 及其 存储 介质 | ||
本申请公开了辅助文本标注方法、装置、设备及其存储介质。该方法包括:获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个所述初始词组一一对应的初始词性;调用标准词库对初始分词结果进行校验审查,得到待修改词组和待修改词组的校验提示信息;接收根据校验提示信息针对待修改词组输入的操作指令;响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。根据本申请实施例的技术方案,在调用标准词库对初始分词结果进行校验审查的基础上,通过用户输入的操作指令实现对待修改词组的调整,有效地提高人工标注的效率。
技术领域
本申请一般涉及数据管理技术领域,尤其涉及辅助文本标注方法、装置、设备及其存储介质。
背景技术
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在自然语言处理中,分词是自然语言处理的基础,分词准确度直接决定词性标注、句法分析、词向量以及文本分析的质量。但是,目前分词标准存在不一致的问题,导致分词结果的质量不高,分词的效率较低。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种辅助文本标注方法、装置、设备及其存储介质,来有效地提高文本标注的效率。
一方面,本申请实施例提供了一种辅助文本标注方法,该方法包括:
获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个初始词组一一对应的初始词性;
调用标准词库对初始分词结果进行校验审查,得到待修改词组和待修改词组的校验提示信息;
接收根据校验提示信息针对待修改词组输入的操作指令;
响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。
一方面,本申请实施例提供了一种辅助文本标注装置,该装置包括:
获取单元,用于获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个初始词组一一对应的初始词性;
调用单元,用于调用标准词库对初始分词结果进行校验审查,得到待修改词组和待修改词组的校验提示信息;
接收单元,用于接收根据校验提示信息针对待修改词组输入的操作指令;
调整单元,用于响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。
一方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如本申请实施例描述的方法。
一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于:
该计算机程序被处理器执行时实现如本申请实施例描述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010266600.8/2.html,转载请声明来源钻瓜专利网。