[发明专利]一种结合主题语义与TF*IDF算法的大规模文本分类方法及系统在审
申请号: | 202110481459.8 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113032573A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 任伟;吴晨;缪建明;张全;韦向峰;袁毅;徐永潜 | 申请(专利权)人: | 《中国学术期刊(光盘版)》电子杂志社有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/284 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 王泽云 |
地址: | 100084 北京市海淀区清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 主题 语义 tf idf 算法 大规模 文本 分类 方法 系统 | ||
本发明公开了一种语种无关的结合主题语义与TF*IDF算法的大规模文本分类方法及系统,本方法以TF*IDF算法为基础,在特征向量选择和权重计算过程中利用LDA计算的主题语义,通过LDA建模分析得到文档‑主题分布和主题‑词语分布,以此为基础计算主题语义因子TSF,并将TSF作为新的量化维度引入特征选择和特征向量权重计算中。本方法有效利用了特征项之间内在的关联性信息。也避免了直接根据LDA浅层主题语义进行文本分类而造成的实时增量分类处理能力弱,计算结果不稳定的问题。采用数据驱动的处理模式,与语种无关,无需额外的语言知识支撑,适合大规模、多语种文本数据的快速高效分类处理。
技术领域
本发明涉及人工智能语言信息处理技术领域,尤其涉及一种结合主题语义与TF*IDF算法的大规模文本分类方法及系统。
背景技术
信息技术带来了新的技术革命,文档电子化数字化已经成为发展的趋势。互联网的普及加剧了这一趋势的演进。面对海量大规模的电子文本内容,为了快速获得人们关注的内容,进行文本分类是一种重要手段。而如何对大规模文本数据资源进行自动分类,就成为重要的基础技术。对大规模海量文本数据资源进行文本分类具有重要的应用价值。首先,文本分类技术为进一步挖掘文本内容中的要点和概况提供了快速便捷的技术工具。其次,文本分类技术可以大大节省人工审读分类的成本,特别是在大规模海量文本的数据集中,具有重要的现实意义。因此,文本分类技术可以帮助人们更好的组织、管理文本信息,文本分类技术也因此成为计算机科学与技术、人工智能中智能语言信息处理领域中的热点技术。
自上世纪中叶,计算机诞生不久,研究者就开始探索文本分类方法。早期文本分类技术采用的是专家制定分类规则的方法,这种方法不但工作量大,而且效率低,需要相关具备一定专业知识的专家来制定规则。随着大规模文本数据时代的到来,这种模式难以适应发展的需要。到上世纪末,随着电子文本的大量出现,研究者开始引入多种统计及机器学习分析算法实现文本分类,取得了较好的实用效果,成为文本分类技术的主流。这些方法主要包括:朴素贝叶斯分类法(Bayesian Classifier)、支持向量机方法(SupportVector Machines,SVM)、k-最近邻法(k-Nearest Neighbor,kNN)、神经网络法(NeuralNetwork,NNet)、决策树分类法(Decision Tree)、模糊分类法(Fuzzy Classifier)、Rocchio分类法和Boosting方法等。在这些方法中,大都需要对文本的特征进行向量化表示,形成文本表示的向量空间。其中特征向量的权重计算是重要的影响因素。有分析认为特征向量建立和权重计算的最常用方法是TF*IDF(TF:Term Frequency,IDF:InverseDocument Frequency)以及在此基础上的改进方法。向量空间的文本表示模型采用数值量化的向量描述文本内容之间的关联关系,通过计算向量之间的相似度来确定文本内容的相似程度,大大降低了早期统计方法中的数据稀疏问题,但是向量空间模型把向量中的各个分量视为独立的特征项,忽略了特征之间的语义关联关系,这使得利用TF*IDF方法性能上还存在缺陷。有研究者已经开始为TF*IDF方法引入语义分析和概念网络,在性能方面改进了TF*IDF方法。然而由于融入语义知识和概念知识,这些知识往往需要专家人工构建,大大抬升了技术成本,影响了这些方法的应用范围和跨语种适应性。
近年来随着研究的深入,在文本语义处理方面面向语言数据的浅层语义分析发展很快。这一研究方向以统计分布为基础,形成了利用语言数据研究语义内容的新模式,为获取文本语义内容提供了新手段。其中基于潜在狄利克雷分配(Latent DirichletAllocation,LDA)分布的主题分析模型在研究中得到广泛应用,取得较好的效果和广泛应用。这一方法也成为主题语义分析中常用的方法,已经引入文本分类中。利用LDA进行文本分类,往往需要整理形成完整的文本集合再进行分类。对于增量式文本分类,即根据输入一篇文章的内容进行实时分类,适应性不好。由于这个原因,LDA更多应用于与文本分类相近的文本聚类处理中。另外,LDA是一种统计计算的方法,由于初始条件的不同,或者计算预设值的不同,分析得到的主题相差较大,处理结果的稳定性有待改进。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于《中国学术期刊(光盘版)》电子杂志社有限公司,未经《中国学术期刊(光盘版)》电子杂志社有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110481459.8/2.html,转载请声明来源钻瓜专利网。