[发明专利]一种基于词向量的中文年报标题分类方法在审
| 申请号: | 202010527929.5 | 申请日: | 2020-06-11 |
| 公开(公告)号: | CN111666378A | 公开(公告)日: | 2020-09-15 |
| 发明(设计)人: | 梁倬骞;潘定;曹志鹏 | 申请(专利权)人: | 暨南大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 深圳科湾知识产权代理事务所(普通合伙) 44585 | 代理人: | 钟斌 |
| 地址: | 510000 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 向量 中文 年报 标题 分类 方法 | ||
1.一种基于词向量的中文年报标题分类方法,具体步骤为:
步骤1、输入企业年报数据集;
步骤2、对数据进行人工标注,并划分训练集;
步骤3、对数据进行预处理,并训练Word2vector模型;
步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量;
步骤5、通过分类抽取得到目录。
2.根据权利要求1所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤3预处理具体为分词和去掉停用词。
3.根据权利要求1所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤3中Word2vector模型采用CBOW模型,具体步骤为:
A、定窗口大小k,将窗口内除中心词wt外的所有词语分别生成独热向量;
B、将输入权重矩阵与独热向量相乘,得到每个词语的输入向量;
C、计算这2k个上下文词语词向量的平均值;
D、通过输出词向量矩阵乘以上下文词向量得到一个分数向量;
E、利用函数将分数向量转化为概率分布;
F、利用交叉熵作为损失函数,通过随机梯度下降算法优化输入权重矩阵和输出词向量矩阵。
4.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤A中独热向量可通过对词语的词典序进行独热编码生成。
5.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤E中所述函数具体为softmax函数。
6.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤C中所述平均值用以表示上下文词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010527929.5/1.html,转载请声明来源钻瓜专利网。





