[发明专利]一种基于TFIDF与规则引擎的无监督相似文本推荐方法在审
申请号: | 202111635603.5 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114328888A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 胡华;龚梁;孙平;黄腾达 | 申请(专利权)人: | 武汉烽火普天信息技术有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/383 |
代理公司: | 武汉天领众智专利代理事务所(普通合伙) 42300 | 代理人: | 蕭光佑 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tfidf 规则 引擎 监督 相似 文本 推荐 方法 | ||
本发明公开了一种基于TFIDF与规则引擎的无监督相似文本推荐方法,它包括以下步骤:步骤1:通过数据预处理模块对原始的企业经营范围文本数据进行处理,得到干净并分好词的文本数据,步骤2:利用预处理后的文本数据,通过TFIDF并结合规则引擎建立业务标签抽取模型。有益效果在于:本发明通过基于TFIDF与规则引擎来建立无监督相似文本推荐方法,使得本发明在相似文本推荐的过程中完全不需要人工提取复杂特征与人工标注数据,满足工程应用,不仅能加速项目开发进度,而且还可以推动人工智能在自然语言领域的行业应用。
技术领域
本发明涉及到信息查找技术领域,尤其涉及一种基于TFIDF与规则引擎的无监督相似文本推荐方法。
背景技术
在信息检索与抽取领域中,往往需要根据搜索出来的结果关联或推荐相关的其他结果,间接提高检索的召回率与多样性。
虽然目前已有较多的推荐算法可以满足要求,但大部分算法都需要大量数据来训练模型,或者需要进行复杂的特征工程等前期工作;对于少量样本数据或数据不均衡模型的效果可能不尽如人意,而复杂的特征工程会加大模型的开发难度,影响项目进度。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于TFIDF与规则引擎的无监督相似文本推荐方法。
本发明通过以下技术方案来实现上述目的:
一种基于TFIDF与规则引擎的无监督相似文本推荐方法,步骤1:通过数据预处理模块对原始的企业经营范围文本数据进行处理,得到干净并分好词的文本数据;
步骤2:利用预处理后的文本数据,通过TFIDF并结合规则引擎建立业务标签抽取模型;
步骤3:将步骤2抽取出来的业务标签建立业务标签词典,并利用TFIDF来训练业务相似度模型;
步骤4:遍历所有经营范围,结合步骤3训练的TFIDF模型预测结果与杰卡德距离计算的相似度结果,对最终的相似经营范围进行排序,根据阈值或最大相似样本量来进行取舍。
进一步的,所述步骤2中的规则引擎可自动修正TFIDF模型抽取的业务标签的权重,从而得到更加精准的业务标签,确保业务标签抽取模型的精准度。
进一步的,所述步骤2中的TFIDF用于实现文本数据的挖掘,能够实现业务标签抽取模型的快速建立。
进一步的,所述步骤3中的TFIDF主要通过信息检索来训练业务相似度模型,能够确保业务相似度模型的高效训练。
进一步的,杰卡德距离(jδ)的计算公式如下,主要用来衡量两家企业的业务标签的相似程度。
最终,相似度得分计算公式如下:
其中,N表示业务标签数量,tfidf_score表示TFIDF模型计算得到的相似得分。
本发明的有益效果在于:
本发明通过基于TFIDF与规则引擎来建立无监督相似文本推荐方法,使得本发明在相似文本推荐的过程中完全不需要人工提取复杂特征与人工标注数据,满足工程应用,不仅能加速项目开发进度,而且还可以推动人工智能在自然语言领域的行业应用。
附图说明
图1为本发明所述的一种基于TFIDF与规则引擎的无监督相似文本推荐方法的流程图。
具体实施方式
一种基于TFIDF与规则引擎的无监督相似文本推荐方法,它包括以下步骤
步骤1:利用数据预处理模块对原始文本数据进行统一处理,得到较为干净的并分好词的文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉烽火普天信息技术有限公司,未经武汉烽火普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111635603.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纯电动汽车轮毂发电机
- 下一篇:器件制造方法、储能器件和能源供应装置