[发明专利]一种基于文本判别建模的Hawkes过程分类方法在审
| 申请号: | 202210639462.2 | 申请日: | 2022-06-08 |
| 公开(公告)号: | CN115168570A | 公开(公告)日: | 2022-10-11 |
| 发明(设计)人: | 潘晓光;张雅娜;陈亮;王小华;张娜 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 深圳科润知识产权代理事务所(普通合伙) 44724 | 代理人: | 刘强强 |
| 地址: | 030000 山西省太*** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 判别 建模 hawkes 过程 分类 方法 | ||
本发明属于深度学习技术领域,具体涉及一种基于文本判别建模的Hawkes过程分类方法,包括如下步骤:数据采集:采集模型所需的数据,并对其类别进行标注,完成模型所需的数据集构建;数据预处理:对数据集进行的预处理,为后续的搜索做必要准备;Hawkes过程:Hawkes过程是一个具有自触发属性的点进程,即先前事件的发生触发未来事件的发生;文本的判别建模:通过一个多元Hawkes过程来解决谣言姿态分类问题;神经核Hawkes过程:通过一个神经网络模型核,其目的是了解发生过的事件和当前事件之间复杂的非线性关系,并定义了其强度函数;验证方法:在数据集中验证方法的可行性和有效性。
技术领域
本发明属于深度学习技术领域,具体涉及一种基于文本判别建模的Hawkes过程分类方法。
背景技术
随着互联网的崛起,人们越发习惯通过网络平台分享自己的观点,诸如微博,豆瓣等社交平台就有大量的相关文本,传统NLP方法在解决这种高动态性语言文本时效果不尽如人意。
现有技术存在的问题或者缺陷:诸如微博等社交平台限制了文本的长度,而且在这些文本中缺少足够的单词出现,使用标准的自然语言处理工具(NLP)对这些信息进行分类是一项具有挑战性的任务。此外,社交媒体中帖子的高度复杂性和动态性使得文本分类成为一个具有挑战性的问题。
发明内容
本发明提出了一种新的基于Hawkes过程的文本分类方法,有效解决了社交平台上高动态语言的文本分类问题,其主要实现步骤为,Hawkes过程(霍克斯过程),文本的判别建模和神经核Hawkes过程三大部分。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于文本判别建模的Hawkes过程分类方法,包括下列步骤:
S1、数据采集:采集模型所需的数据,并对其类别进行标注,完成模型所需的数据集构建;
S2、数据预处理:对数据集进行的预处理,为后续的搜索做必要准备;本发明通过特征标准化对数据进行预处理,所述特征标准化:使数据集中所有特征都具有零均值和单位方差;
S3、Hawkes过程:Hawkes过程是基于点过程的,点过程是一种随机过程,它模拟了在一条实线上出现的一组点,Hawkes过程是一个具有自触发属性的点进程,即先前事件的发生触发未来事件的发生;
S4、文本的判别建模:通过一个多元Hawkes过程来解决谣言姿态分类问题;
S5、神经核Hawkes过程:通过一个神经网络模型核,其目的是了解发生过的事件和当前事件之间复杂的非线性关系,并定义了其强度函数;
S6、验证方法:在数据集中验证方法的可行性和有效性。
进一步的,S3、具体步骤为:Hawkes过程是基于点过程的,点过程是一种随机过程,它模拟了在一条实线上出现的一组点,点流程对一段时间内事件的发生进行建模,那么它就称为时间点流程,点过程可以用其条件强度函数定义为:
其中Ht是到时间t的过程历史,事件列表为{t1,t2,…tn},为了便于表示,将λ(t|Ht)作为λ(t);
点过程是有用的模型分布的点在一些空间和定义使用一个潜在的强度函数,Hawkes过程是一个具有自触发属性的点进程,即先前事件的发生触发未来事件的发生,定义单变量Hawkes过程的条件强度函数为:
其中μ为基强度函数,k(·)为捕获以往事件影响的触发核函数,在tkt上的总和代表了在t之前所有事件的所有影响,这有助于计算在t时刻的强度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210639462.2/2.html,转载请声明来源钻瓜专利网。





