[发明专利]基于口令语义结构的字典生成系统及方法在审
| 申请号: | 202110002545.6 | 申请日: | 2021-01-04 |
| 公开(公告)号: | CN112784227A | 公开(公告)日: | 2021-05-11 |
| 发明(设计)人: | 邱卫东;田昊;郭捷;唐鹏;黄征;刘国珍 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F21/31 | 分类号: | G06F21/31;G06F40/242;G06F40/284;G06F40/30 |
| 代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 口令 语义 结构 字典 生成 系统 方法 | ||
1.一种基于口令语义结构的字典生成系统,其特征在于,包括:口令语义结构分析模块和口令字典生成模块,其中:口令语义结构学习模块从样本集中提取出对应口令的语义结构以及口令语义结构对应的口令因子并输出至口令字典生成模块,口令字典生成模块通过分析目标数据集的特征,根据生成阈值生成用于解密验证的口令字典;
所述的口令语义结构学习模块包括:初始化模块、预处理模块、分词模块、数字处理模块、特殊字符处理模块以及字母处理模块,其中:初始化模块生成哈希表,预处理模块对输入的口令进行分类判断,分词模块对经分类判断后仍然没有明确语义的输入口令进行分词处理,数字处理模块对于分词模块得到的数字部分根据长度进行分类,并判断其中特定长度的数字是否包含语义结构,特殊字符处理模块对于分词模块得到的特殊字符部分,根据长度进行再次分类;字母处理模块对于分词模块得到的字母部分,依次进行单词拆分、词性标注模块和特殊语义处理;
所述的字母处理模块包括:单词拆分单元,词性标注单元和特殊语义处理单元,其中:单词拆分单元使用参考语料库,将命名实体作为名词的子集,首先运行不包含中文名缩写的分割算法,并且当分割结果包括任何无法识别的部分,将包含中文名缩写进行第二次分割;词性标注单元根据口令语义结构定义,对于词性标注(POS)标记过程,使用了称为顺序退避标记器的方法,该方法尝试从三元(Trigram)标记器,然后是二元(bigram)标记器,最后是单元(unigram)标记器进行标记过程;特殊语义处理单元对经过词性标注单元后仍需要处理的命名实体和无法识别的段进行补充识别分类。
2.根据权利要求1所述的基于口令语义结构的字典生成系统,其特征是,所述的初始化模块,根据命令行提供的参数,在Rules文件夹下新建存放口令语义结构因子的目录,新建存放所有口令语义结构因子的哈希表A。
3.根据权利要求1所述的基于口令语义结构的字典生成系统,其特征是,所述的分类判断是指:预处理模块判断输入的口令是否包含键盘组合、邮件地址或网址,
4.根据权利要求1所述的基于口令语义结构的字典生成系统,其特征是,所述的分词处理,首先按照字母,数字和特殊字符对口令进行切分,切分后的部分再进行分类判断处理。
5.根据权利要求1所述的基于口令语义结构的字典生成系统,其特征是,所述的特定长度的数字,当长度为6位或8位数字,则判断是否是年月日;当长度为4位数字,则判断是否是年份;当长度为11位数字,则判断是否是合法电话号码。
6.根据权利要求1所述的基于口令语义结构的字典生成系统,其特征是,所述的口令语义结构定义是指:具有明确语义的因素,包括:代词([PRON]),名词([NOUN]),限定词([DET]),形容词([ADJ]),动词([VERB]),介词([ADP]),副词([ADV]),小品词([PRT]),连词([CONJ]),代表数字的英语单词([NUM])和词缀([X])。
7.根据权利要求1所述的基于口令语义结构的字典生成系统,其特征是,所述的标记器进一步将命名实体标记为“NP”,将任何无法识别的段标记为“NN”。
8.根据权利要求1所述的基于口令语义结构的字典生成系统,其特征是,所述的补充识别分类包括:对实体标记部分通过字符串匹配映射到四个或五个命名实体;对于无法识别的段首先尝试判断他是不是合法的拼音表达式;然后通过检查该细分是否是英语短语的首字母缩写,判断规则是改部分是否是由至少三个连续的辅音字母组成的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110002545.6/1.html,转载请声明来源钻瓜专利网。





