[发明专利]一种行业应用软件词根表的构建方法有效
申请号: | 201310077331.0 | 申请日: | 2013-03-12 |
公开(公告)号: | CN103150376A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 左春;庞朴;张正;魏萍 | 申请(专利权)人: | 中科软科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 行业 应用软件 词根 构建 方法 | ||
1.一种行业应用软件词根表的构建方法,其步骤为:
1)创建一词根表初始库,并对该初始库中的词根进行唯一性检查;
2)当某词根需要加入该初始库时,按照中文或英文名称匹配检索该初始库:
a)如果检索到匹配词根,则将该词根加入到该初始库并根据该匹配词根的属性对该词根的属性进行补充;
b)如果未检索到匹配词根,按照中文或英文名称检索规范文件,得到匹配的词根;然后根据规范文件计算该词根及其匹配词根的适合系数,将适合系数最大的词根加入到该初始库并对该适合系数最大的词根的属性进行补充。
2.如权利要求1所述的方法,其特征在于所述初始库包括一当前库和一历史库,判断所述初始库中词根的个数是否大于设定阈值H,如果大于设定阈值H,则将所述初始库中词根适合系数最大的前H个词根放到所述当前库中,将剩余词根放到所述历史库中。
3.如权利要求2所述的方法,其特征在于对该初始库中的词根进行唯一性检查的方法为:根据词根的名称对该初始库中的词根进行唯一性检查,将具有中文名称相同或英文名称相同的词根配对成组;然后对于每一配对组,根据规范文件计算其该配对组内每一词根的适合系数,选取适合系数最高的词根存储在所述当前库中,并根据该配对组中其他词根的属性对该适合系数最高词根的属性进行补充。
4.如权利要求3所述的方法,其特征在于如果配对组中同一中文名称或英文名称对应多个含义时,进行语义相似度计算,取相似度最大者作为该适合系数最高词根的含义。
5.如权利要求1或2或3所述的方法,其特征在于所述规范文件包括:ACORD文件、金融术语文件、《精编英汉保险词典》、保险术语表、金融术语文件;计算词根的所述适合系数的方法为:
51)检索保险术语表是否存在该词根,记为v1,存在则v1=1,反之则为0;
52)检索ACORD文件是否存在该词根,记为v2,存在则v2=1,反之则为0;
53)检索《精编英汉保险词典》,确认该词根英文名称的中文含义中是否有对应的中文名称,记为v3,存在则v3=1,反之则为0;
54)检索保险术语文件是否存在该词根,记为v4,存在则v4=1,反之则为0;
55)检索金融术语文件是否存在该词根,记为v5,存在则v5=1,反之则为0;
56)检索《精编英汉保险词典》,确认该词根中文名称的含义中是否有对应的中文含义,记为v6,,存在则v6=1,反之则为0;
57)计算该词根的适合系数fitness=α1v1+α2V2+α3v3+α4v4+α5v5+α6v6,其中,α1+α2+α3+α4+α5+α6=1。
6.如权利要求1所述的方法,其特征在于所述规范文件包括:ACORD文件、金融术语文件、《精编英汉保险词典》、保险术语表、金融术语文件;对于中文含义或英文含义为空的词根,根据规范文件对词根的属性进行补充,其方法为:自动检索保险术语表和ACORD文件,对词根的中文名称和英文名称进行补充,未检索到则进行标注。
7.如权利要求1或2或3所述的方法,其特征在于所述词根的属性包括:中文名称、中文简称、中文含义、英文名称、英文简称、英文含义、适合系数、分类信息和备注信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科软科技股份有限公司,未经中科软科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310077331.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:城市公交信号智能导引系统
- 下一篇:单边同步器