[发明专利]一种高速列车设计词库构建方法及构建系统在审
| 申请号: | 201910593391.5 | 申请日: | 2019-07-03 |
| 公开(公告)号: | CN110347794A | 公开(公告)日: | 2019-10-18 |
| 发明(设计)人: | 黎荣;丁雨秋;韩鑫;张义军;郑宇飞;丁国富 | 申请(专利权)人: | 西南交通大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
| 代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 王沙沙 |
| 地址: | 610031 四川省成都市*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 高速列车设计 专业词汇 词库 文本分词 构建 词汇 构建系统 语义关系 预处理 传统人工 等级关系 结果计算 同义关系 文本格式 有效解决 专业词库 权重和 相关度 准确率 遍历 权重 语料 词语 存储 文本 填补 更新 制造 统一 维护 | ||
1.一种高速列车设计词库构建方法,其特征在于,包括以下步骤:
步骤1:获取高速列车设计相关语料,统一文本格式;
步骤2:对文本进行预处理,得到文本分词结果;
步骤3:根据文本分词结果计算每个词的词语权重,权重大于设定阈值的为专业词汇;
步骤4:确定专业词汇之间的语义关系,任选两个词汇确定其是否存在同义关系和等级关系,若不存在则计算其相关度;
步骤5:若两个词汇之间存在同义关系和等级关系或相关度大于设定阈值,则将该专业词汇、词汇权重和语义关系存储在高速列车设计词库中,遍历文本分词结果中的所有词汇。
2.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤3中词语权重计算过程如下:
S11:统计文本分词结果中每个词在所有语料文本中的词频TF;
S12:统计文本分词结果中每个词在整个语料库中的语料频率DF;
S13:计算词语权重:
式中:TFDFi为词语i的权重,TFi为j文本中出现的词语i在所有文本中的词频,DFi为词语i在整个语料库中出现的频率,fij为词语i在文本j中的词频,ni为词语i的文本频数,N为样本语料中的文本总数,M为j文本中的词语总数。
3.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤4中所述同义关系通过同义词典匹配确定。
4.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤4中等级关系通过等级关联度确定,等级关联度大于设定阈值则两个词汇之间存在等级关系;
等级关联度计算过程如下:
式中:Sim为某两个词汇之间的等级关联度,xsword为两个词汇中含有相同匹配字的个数,ctrlword为两个词汇中被匹配词汇中汉字的总数,keyword为两个词汇中待匹配词汇中汉字的总数,dp为被匹配词与待匹配词字数的比值,c_xsword(i)为匹配词汇中i字在被匹配词汇中所处的位置数,k_xsword(i)为匹配词汇中i字在待匹配词汇中所处的位置数,ctrlword(i)为被匹配词汇中各字的位置数,keyword(i)为待匹配词汇中各字的位置数。
5.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤4中相关度计算方法如下:
式中:D(A,B)为词汇A和B之间的相关度,P(AB)为A和B在文本分词结果中共同出席的频次,P(A)为A在文本分词结果中单独出现的频次,P(B)为B在文本分词结果中单独出现的频次。
6.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤2中的预处理包括以下过程:
S21:对文本通过中文分词Jieba工具进行分词处理;
S22:对步骤S21分词结果进行词性标注,并对其进行过滤,输出分词结果。
7.采用如权利要求1~6所述任一项方法的高速列车设计词库构建系统,其特征在于,包括预处理模块、候选词提取模块、语义关系模块和高速列车设计词库;
预处理模块用于对获取得到的统一格式的语料进行预处理;
候选词提取模块用于确定经预处理后的词汇中的专业词汇;
语义关系模块用于确定专业词汇之间的语义关系,包括同义关系、等级关系和相关关系;
高速列车设计词库用于存储高速列车设计专业词汇及词汇权重、词汇间的语义关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910593391.5/1.html,转载请声明来源钻瓜专利网。





