[发明专利]一种待办事项提取方法、装置、设备及存储介质在审
申请号: | 202310651488.3 | 申请日: | 2023-06-02 |
公开(公告)号: | CN116629236A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 李思远;杨晶生;康积华 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06N3/08;G06F40/186;G06N3/0499;G06N3/045;H04N7/15;G10L15/26 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 冯柳伟 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 待办 事项 提取 方法 装置 设备 存储 介质 | ||
本申请公开了一种应用于自然语言处理技术领域的待办事项提取方法、装置、设备及存储介质。该方法先获取待处理文本数据,从待处理文本数据中识别得到一个或者多个与待办事项相关的原始文本数据,针对一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量,并在原始文本数据的信息量不满足预设条件的情况下,利用待处理文本数据补充该原始文本数据。补充得到的该原始文本数据包括较为完整的待办事项的信息。最后,从该原始文本数据中提取得到待办事项数据。如此能够实现自动提取较为准确的待办事项数据,提高用户体验。
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种待办事项提取方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,用户越来越多地通过互联网与其他用户进行交流。例如,用户能够通过参与网络会议,或者利用文本与其他用户交流。在交流的过程中,可能会提及即将要执行的待办事项。
目前,负责处理待办事项的用户需要自行从交流的内容中整理得到待办事项的相关信息。用户提取待办事项的过程较为不便,效率较低。
发明内容
有鉴于此,本申请提供一种待办事项提取方法、装置、设备及存储介质,能够自动提取待处理文本数据中的待办事项,提高提取待办事项的效率。
本申请提供的技术方案如下:
第一方面,本申请提供一种待办事项提取方法,所述方法包括:获取待处理文本数据;从所述待处理文本数据中识别得到一个或者多个原始文本数据,所述原始文本数据与待办事项相关;针对所述一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量;若该原始文本数据的信息量不满足预设条件,利用所述待处理文本数据补充该原始文本数据;从该原始文本数据中提取得到待办事项数据。
在一种可能的实现方式中,所述从所述待处理文本数据中识别得到一个或者多个原始文本数据,包括:利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据。在一种可能的实现方式中,在所述利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据之前,所述方法还包括:对所述待处理文本数据进行分句处理,得到多个待处理语句文本数据;所述利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据,包括:利用所述语句识别模型,从所述多个待处理语句文本数据中识别得到一个或者多个原始文本数据。
在一种可能的实现方式中,所述语句识别模型是采用以下方式训练得到的:获取第一训练数据,所述第一训练数据包括正样本和负样本,所述正样本为包括待办事项的信息的文本数据,所述负样本是不包括待办事项的信息的文本数据;利用所述第一训练数据训练语句识别模型,直到满足第一条件为止,得到完成训练的语句识别模型。
在一种可能的实现方式中,所述确定该原始文本数据的信息量,包括:利用信息量识别模型,基于该原始文本数据得到该原始文本数据的信息量。
在一种可能的实现方式中,所述信息量识别模型是采用以下方式训练得到的:获取第二训练数据,所述第二训练数据包括训练文本数据和所述训练文本数据对应的标签,所述标签用于表示所述训练文本数据的信息量;利用所述第二训练数据训练信息量识别模型,直到满足第二条件为止,得到完成训练的信息量识别模型。
在一种可能的实现方式中,所述利用所述待处理文本数据补充该原始文本数据,包括:利用所述待处理文本数据中与该原始文本数据相邻的第一文本数据,补充该原始文本数据。
在一种可能的实现方式中,所述方法还包括:若补充后的该原始文本数据的满足补充条件,利用所述待处理文本数据中与该原始文本数据相邻的第二文本数据,补充该原始文本数据。
在一种可能的实现方式中,所述补充条件为该原始文本数据的字数小于字数阈值,或者,所述补充条件为该原始文本数据的语句结构不足。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310651488.3/2.html,转载请声明来源钻瓜专利网。