[发明专利]一种基于双数组字典树进行术语匹配的方法有效
| 申请号: | 201610897567.2 | 申请日: | 2016-10-15 |
| 公开(公告)号: | CN106649286B | 公开(公告)日: | 2019-07-02 |
| 发明(设计)人: | 冯泽康 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06F16/33 |
| 代理公司: | 江苏法德永衡律师事务所 32305 | 代理人: | 刘林 |
| 地址: | 430073 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 双数 字典 进行 术语 匹配 方法 | ||
1.一种基于双数组字典树进行术语匹配的方法,其特征是包括用双数组字典树建索引的步骤,及基于双数组字典树索引进行术语匹配的步骤;
所述用双数组字典树建索引的步骤包括:
(1)生成双数组字典树的定位根据指定的双数组字典树的数目,用哈希算法,对插入术语计算哈希值,然后对双数组字典树的数目取模,计算得出双数组字典树的位置编号,用以实现双数组字典树的定位;
(2)计算内存缓存系统的二级索引的ID
从mongo数据库里读出术语,将术语插入双数组字典树,返回术语在双数组字典树的pos值,将所述双数组字典树的位置编号,乘以1000万,加上所述pos值,再配合程序设定的前缀字串,得出内存缓存系统里的二级索引的ID;
(3)对术语建索引
根据二级索引的ID查询出插入术语在数据库里对应的数据记录的术语库ID和对象ID,用术语库ID和对象ID构造键值,形成二级索引的ID和键值的映射关系,存放于内存缓冲系统;
所述基于双数组字典树索引进行术语匹配的步骤包括:
(1)生成双数组字典树的定位
(2)分词
将标点符号滤掉,对于西方语言直接按空格拆分,对于中文系列的语言按单个字拆分,用逆向最大匹配算法结合双数组字典,分出词汇,以及词汇在双数组字典树里的位置;
(3)基于索引进行术语匹配
根据二级索引的ID查询插入术语在数据库里对应的数据记录的术语库ID和对象ID,过滤并查询出插入术语在数据库的完整信息。
2.根据权利要求1所述的基于双数组字典树进行术语匹配的方法,其特征是所述内存缓存系统是在术语语料所在的数据库之外。
3.根据权利要求1所述的基于双数组字典树进行术语匹配的方法,其特征是所述双数组字典树是通过遍历数据库获取字符串数据的源字符串和目标字符串生成的。
4.根据权利要求1所述的基于双数组字典树进行术语匹配的方法,其特征是所述内存缓存系统包括一级索引和二级索引;
所述一级索引的生成步骤是:将字符串数据插入双数组字典树,返回字符串数据在双数组字典树里的位置值,并通过位置值计算得出字符串数据ID,将字符串数据ID放入内存缓存系统里,用于实现字符串数据的一级索引;
所述二级索引的生成步骤是:建立字符串数据ID与字符串数据在数据库内部已建立索引的数据记录的关键字段的对应关系,用于实现字符串数据的二级索引。
5.根据权利要求4所述的基于双数组字典树进行术语匹配的方法,其特征是所述一级索引和二级索引被定时写入硬盘。
6.根据权利要求4所述的基于双数组字典树进行术语匹配的方法,其特征是所述一级索引和二级索引达到数量阈值后被写入硬盘。
7.根据权利要求4所述的基于双数组字典树进行术语匹配的方法,其特征是所述索引为双向索引。
8.根据权利要求1所述的基于双数组字典树进行术语匹配的方法,其特征是所述逆向最大匹配算法,从被处理字符串的末端开始匹配扫描,每次取最末端的2i个字符作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配,匹配是否失败需要借助分词字典(如双数组字典)是否查询到当前切割出的词来判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610897567.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:椅子(MK‑705)
- 下一篇:椅子(MK‑701)





