[发明专利]一种地产行业标签体系优化方法、系统、设备及存储介质在审
申请号: | 202211084911.8 | 申请日: | 2022-09-06 |
公开(公告)号: | CN115617988A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 徐星晨;朱亮;薛健;朱高鹏 | 申请(专利权)人: | 金茂云科技服务(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/31;G06F40/289;G06Q50/16 |
代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 周述武 |
地址: | 100069 北京市丰台区南四环*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地产 行业 标签 体系 优化 方法 系统 设备 存储 介质 | ||
本发明实施例公开了一种地产行业标签体系优化方法、系统、设备及存储介质,基于已有标签体系和文本数据库,得到待优化标签的标签优化参数,然后根据标签体系优化方向,设置标签优化阈值,将标签优化参数和标签优化阈值进行对比,根据对比结果对已有标签体系进行优化,得到优化后的标签体系。本发明实施例实现了将文本标签体系优化方法实际应用到地产行业,降低了标签体系优化对设计人员判断经验与正则库的依赖,减少了人力投入,有效提高了地产行业标签体系优化的优化效果,扩展了优化的适用范围。
技术领域
本发明实施例涉及数据分析领域,具体涉及一种地产行业标签体系优化方法、系统、设备及存储介质。
背景技术
现有的常规文本标签体系迭代优化方案根据不同需求方向可以分为追求标签的精准度和垂直度或追求标签的深度与丰富度;前者提高精准度指通过调整标签优化业务数据标注的难易程度、提升垂直度指通过凝练标签体系去除冗余标签,使得标签足够代表相似的文本数据;后者则尽可能的从文本数据中提取足够多的标签,提升标签体系的体量。以上两种方案适应的业务场景不同,前者适合具备相当大体量文本数据,并且文本数据存在结构化、主题性,后者适合文本数据体量适中,文本信息多元化、碎片化的业务场景。
在目前的地产领域中,标签体系的优化迭代技术尚未成熟,在地产行业缺少落地应用,优化依赖于设计人员结合业务反馈与文本数据进行分析扩充正则库,但伴随业务不断开展和数据量的增长,该方案需要投入的成本会不断增多,维护需要人力成本较高,并且现有的优化迭代方法不适用碎片化、多元化的对话文本。
发明内容
为此,本发明实施例提供一种地产行业标签体系优化方法、系统、设备及存储介质,以解决现有技术对标签体系优化的优化效果差、适用范围窄的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提供了一种地产行业标签体系优化方法,所述方法包括:
基于已有标签体系和文本数据库,得到待优化标签的标签优化参数;
根据标签体系优化方向,设置标签优化阈值,所述标签优化阈值包括根节点非空率阈值、叶节点覆盖率最低阈值和叶节点覆盖率最高阈值;
将所述标签优化参数和所述标签优化阈值进行对比,根据对比结果对所述已有标签体系进行优化,得到优化后的标签体系。
进一步地,基于已有标签体系和文本数据库,得到待优化标签的标签优化参数,包括:
所述待优化标签包括根节点标签和叶节点标签;
根据所述已有标签体系,得到各个所述待优化标签的根节点标签下的叶节点标签,并形成与各个根节点标签相对应的第一叶节点标签集合;
利用各个所述根节点标签下的叶节点标签与所述文本数据库中的文本进行匹配,得到每个叶节点标签对应的匹配命中次数;
针对每个根节点标签,得到所述匹配命中次数大于零的叶节点标签,并形成第二叶节点标签集合;
利用所述第一叶节点标签集合和所述第二叶节点标签集合,得到所述待优化标签的根节点非空率;
根据所述文本数据库的总样本数和所述文本数据库中被所述待优化标签的各个叶节点标签匹配命中的样本总数,得到所述待优化标签的叶节点覆盖率;
利用所述根节点非空率和所述叶节点覆盖率,作为所述标签优化参数。
进一步地,将所述标签优化参数和所述标签优化阈值进行对比,根据对比结果对所述已有标签体系进行优化,得到优化后的标签体系,包括:
判断所述待优化标签的叶节点覆盖率是否大于所述叶节点覆盖率最高阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金茂云科技服务(北京)有限公司,未经金茂云科技服务(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211084911.8/2.html,转载请声明来源钻瓜专利网。