[发明专利]文档标注方法、装置、电子设备及存储介质有效
申请号: | 202211592980.X | 申请日: | 2022-12-13 |
公开(公告)号: | CN115659969B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 郑玉玲;王凌云;王梓凝;刘兆蓬;宋丹丹 | 申请(专利权)人: | 成方金融科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F18/241;G06F18/214;G06F18/22 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 100033 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 标注 方法 装置 电子设备 存储 介质 | ||
本发明涉及文档标注技术领域,提供一种文档标注方法、装置、电子设备及存储介质,其中方法包括:获取待标注文档和标签列表;对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。本发明提供的方法、装置、电子设备及存储介质,结合各个关键词和标签列表中的各个标签之间的相似度和各个关键词在待标注文档中的词频,确定待标注文档的目标标签,保证了目标标签确定的可靠性和准确性,并且不受标注样本获取数量的限制,实现容易,且目标标签的可靠性强。
技术领域
本发明涉及文档标注技术领域,尤其涉及一种文档标注方法、装置、电子设备及存储介质。
背景技术
文档自动标注旨在为给定文档打上一个或多个标签,便于后续对文档进行分类、搜索、摘要等处理。
现有技术中,传统的机器学习的文档标注方法和深度学习的文档标注方法,均为有监督学习方法,其模型的训练依赖于大量的标注数据。然而,在实际应用中,有些场景下只能获得一部分无标签文档以及标签列表,而另一些场景下,由于数据隐私等问题,仅仅能获得标签列表,而标注样本的缺失,直接影响了文档自动标注的可靠性。
发明内容
本发明提供一种文档标注方法、装置、电子设备及存储介质,用以解决现有技术中有监督学习的文档标注方法依赖于大量的标注数据进行训练的缺陷。
本发明提供一种文档标注方法,包括:
获取待标注文档和标签列表;
对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;
基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
根据本发明提供的一种文档标注方法,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签,包括:
基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分;
基于所述多个标签的标签得分,确定所述待标注文档的目标标签。
根据本发明提供的一种文档标注方法,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分,包括:
基于如下公式,确定所述待标注文档的多个标签的标签得分:
其中,表示待标注文档的第个标签的标签得分,表示第个关键词,表示第个标签,表示关键词的总数,为第个关键词和第个标签的相似度,为第个关键词在待标注文档中的词频,是对进行归一化后的词频。
根据本发明提供的一种文档标注方法,所述基于所述多个标签的标签得分,确定所述待标注文档的目标标签,包括:
基于所述多个标签的标签得分,以及阈值得分和/或所述待标注文档的预设标签数目,对所述多个标签进行筛选,并将筛选所得的标签确定为所述待标注文档的目标标签。
根据本发明提供的一种文档标注方法,所述对所述待标注文档进行关键词抽取,得到多个关键词,包括:
应用关键词抽取模型,对所述待标注文档进行关键词抽取,得到多个关键词;
所述关键词抽取模型是基于样本文本和所述样本文本对应的样本关键词训练得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成方金融科技有限公司,未经成方金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211592980.X/2.html,转载请声明来源钻瓜专利网。