[发明专利]一种词向量文件加载方法、装置、存储介质及电子设备有效
| 申请号: | 202010049608.9 | 申请日: | 2020-01-16 |
| 公开(公告)号: | CN111209747B | 公开(公告)日: | 2023-02-28 |
| 发明(设计)人: | 李亮;杨航;胡姣姣;罗利利 | 申请(专利权)人: | 北京明略软件系统有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/33;G06F9/445 |
| 代理公司: | 北京超成律师事务所 11646 | 代理人: | 邓超 |
| 地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 向量 文件 加载 方法 装置 存储 介质 电子设备 | ||
1.一种词向量文件加载方法,应用于电子设备,其特征在于,所述方法包括:
依据词频和业务领域对词向量文件进行分割,以获得多个子文件,其中,至少一个所述子文件为启动加载文件,所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇;
加载所述启动加载文件,构建词向量查询模型;
加载所述启动加载文件,构建词向量查询模型的步骤,包括:
将所述启动加载文件分为多个子片区;
通过N个线程并行加载所述多个子片区,其中,N为所述电子设备的CPU核数;
构建所述词向量查询模型;
所述多个子文件还包括延时加载文件,所述延时加载文件包括词频大于第二阈值且小于第一阈值的常见词汇;
在加载所述启动加载文件之后,所述方法还包括:
加载所述延时加载文件,并更新所述词向量查询模型;
所述多个子文件还包括专用词汇文件和生僻词汇文件,所述专用词汇文件包含所述业务领域内的专用词汇,所述生僻词汇文件包含词频小于第二阈值的生僻词汇;
在加载所述延时加载文件,并更新所述词向量查询模型之后,所述方法还包括:
当查询的词汇不属于所述词向量查询模型时,加载所述专用词汇文件和所述生僻词汇文件,并更新所述词向量查询模型。
2.如权利要求1所述的词向量文件加载方法,其特征在于,在依据词频和业务领域对词向量文件进行分割之前,所述方法还包括:
将词汇按照词频高低排列,以得到所述词向量文件。
3.一种词向量文件加载装置,应用于电子设备,其特征在于,所述装置包括:
词向量管理单元,用于依据词频和业务领域对词向量文件进行分割,以获得多个子文件,其中,至少一个所述子文件为启动加载文件,所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇;
模型管理单元,用于加载所述启动加载文件,构建词向量查询模型;
所述模型管理单元具体地用于将所述启动加载文件分为多个子片区;通过N个线程并行加载所述多个子片区,其中,N为所述电子设备的CPU核数;构建所述词向量查询模型;
所述多个子文件还包括延时加载文件,所述延时加载文件包括词频大于第二阈值且小于第一阈值的常见词汇;
所述模型管理单元还用于加载所述延时加载文件,并更新所述词向量查询模型;
所述多个子文件还包括专用词汇文件和生僻词汇文件,所述专用词汇文件包含所述业务领域内的专用词汇,所述生僻词汇文件包含词频小于第二阈值的生僻词汇;
在加载所述延时加载文件,并更新所述词向量查询模型之后,所述词向量文件加载装置还用于当查询的词汇不属于所述词向量查询模型时,加载所述专用词汇文件和所述生僻词汇文件,并更新所述词向量查询模型。
4.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1或2所述的方法。
5.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现如权利要求1或2所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010049608.9/1.html,转载请声明来源钻瓜专利网。





