[发明专利]一种文档向量生成方法在审
申请号: | 201911025383.7 | 申请日: | 2019-10-25 |
公开(公告)号: | CN110852070A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 金霞;杨红飞;张庭正 | 申请(专利权)人: | 杭州费尔斯通科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310051 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 向量 生成 方法 | ||
1.一种文档向量生成方法,其特征在于,该方法包括以下步骤:
(1)数据准备;
(1.1)将文档中的每句话的字转换为一个列表,再将每句话的列表构成该文档的列表,最后将文档列表中的每个文字映射到唯一的整型数字,记为doc。
(1.2)将窗口大小为window_size的窗口在文档列表中进行滑动,窗口内的文字列表记为words,窗口内的第window_size//2个文字记为label;一篇文档最后形成多个words和label,而一个样本的数据将包括doc、words和label,一篇文档最后将形成多个样本作为层级注意力网络的训练样本,这些样本的doc相同,但words和label不同。
(2)构建层级注意力网络;所述层级注意力网络包括词级编码器word encoder、词级注意力层word attention、句级编码器sentence encoder、句级注意力层sentence_attention和文档注意力doc_attention;所述word encoder层与sentence encoder层均是序列编码器sequence encoder层类型;word attention层和sentence attention层均是注意力网络,二者上下文文本context不同,word attention层的context为uw,而sentenceattention层的context为us。
(3)语言模型框架:将层级注意力网络输出的doc_attention和words对应的字向量拼接后,采用softmax映射到label;所述字向量为嵌入矩阵We的某一列,通过words的整型数字从嵌入矩阵We索引到其对应的字向量。
(4)层级注意力网络和语言模型框架构成语言模型,对语言模型进行训练,模型中待训练的参数得以拟合,语言模型训练完后,每个文档对应的doc_attention既是最终的文档向量;将预测数据输入到模型中,可得到其文档向量。
2.根据权利要求1所述的一种文档向量生成方法,其特征在于,步骤(1.1)中可将文档中的每句话的词转换成为一个列表,再将每句话的列表构成该文档的列表,最后将文档列表中的每个词映射到唯一的整型数字。
3.根据权利要求1所述的一种文档向量生成方法,其特征在于,步骤(1.2)中,words和label均为文字映射到整型数字后的结果。
4.根据权利要求1所述的一种文档向量生成方法,其特征在于,步骤(1.2)中,窗口大小window_size值为8。
5.根据权利要求1所述的一种文档向量生成方法,其特征在于,步骤(1.2)中,window_size//2表示窗口大小除以2的商的整数部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州费尔斯通科技有限公司,未经杭州费尔斯通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911025383.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种清理小广告的道路清洗车
- 下一篇:一种轴承端盖螺钉同步器