[发明专利]一种基于语义的企业研发资源信息建模方法有效
申请号: | 202110318900.0 | 申请日: | 2021-03-25 |
公开(公告)号: | CN113065343B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 王磊;马剑 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/242;G06F40/30 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300350 天津市津南区海*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 企业 研发 资源 信息 建模 方法 | ||
1.一种基于语义的企业研发资源信息建模方法,包括如下步骤:
(1)构建企业研发资源信息文本语料库T;
(2)对企业研发资源信息文本语料库T进行基于语义的文本分词;
(3)基于语义分析的企业研发资源信息实体识别,采用基于隐马尔科夫模型(HMM)和viterbi算法相结合的方式对企业研发资源信息实体是被模型进行识别,方法如下:
第一步:使用企业研发资源信息文本语料库T训练模型,结合基于语义分析的企业研发资源信息文本分词中生成的状态序列结果对待输入企业研发资源信息文本语料库T文本进行处理;
第二步:结合基于语义分析的企业研发资源信息文本分词中生成的状态序列结果对待输入企业研发资源信息文本语料库T文本进行处理,根据已经求出的状态序列,标识出企业研发资源信息实体;
(4)基于语义分析的企业研发资源信息实体识别关系提取,采用半监督学习的snowball算法,提取与企业研发信息资源相关的实体关系,步骤如下:
第一步:输入待处理文本,标注待处理文本中企业研发资源信息实体中识别到的资源信息实体;
第二步:定义资源信息实体前后取词长度;
第三步:生成规则:根据资源信息实体前后取词结果,形成待处理文本,结构转化为:词向量+实体类别+词向量+实体类别+词向量,表示为规则(L,T,M,T,R);
第四步:计算规则相似度:对于规则1(L1,T1,M1,T1,R1)、规则2(L2,T2,M2,T2,R2),如果T1不等于T2,则规则1和规则2无相似度;反之,则规则1和规则2相似度S=W1 L1 L2+W2 M1 M2+W3R1 R2,其中W1,W2和W3为相应词向量的权重,中间词向量的权重较大;
(5)企业研发资源动态分析,利用关键词提取技术分析企业内部资源使用情况,方法如下:
第一步:建立停用词语料库,对已经得到的分词文本去除停用词,停用词语料库内容包括标点符号、常用词、以及名词、动词、形容词、副词之外的词,得到实际有用的词语;
第二步:结合TF-IDF算法,提取关键词:设词频TF=某一企业研发资源信息实体词汇在企业研发资源信息文本语料库T中的出现次数/企业研发资源信息文本语料库T总次数,逆文档频率IDF=log(企业资源信息文本语料库的文档总数/包含企业研发资源信息实体词汇文档数+1),计算所有单词的TF-IDF值,由此,根据所提取的企业研发资源信息实体词汇关键词对集团研发资源使用动态进行分析,为进一步企业研发资源信息实体关系抽取作参考;
(6)抽取发现企业研发资源信息实体间的联系:为提取企业研发资源信息实体,实体对象是所有的跟企业研发资源有关的实体,抽取实体之间的关系,对企业研发资源信息文本语料库T抽取出相应企业资源信息实体的组成关系元组。
2.根据权利要求1所述的方法,其特征在于,基于前缀词典Df实现词图扫描,生成企业研发资源信息文本语料库T文本中汉字所有可能成词情况所构成的有向无环图DAG,生成步骤如下:
从前往后依次遍历企业研发资源信息文本语料库T文本的每个位置,对于位置k,首先形成一个片段L,片段L只包含位置k的字,判断该片段L是否在前缀词典Df中:
1)如果片段L在前缀词典Df中:
a)如果在某一位置i的片段L包含位置k的字词频P大于0,则将此位置i追加到以k为key的一个列表中;
b)如果在某一位置i的片段L包含位置k的字词频P等于0,则表明前缀词典Df存在此前缀,但统计词典没有这个词,继续循环;
2)如果片段L不在前缀词典Df中:
a)则表明片段L已经超出统计词典中该词的范围,则终止循环;
b)位置i加1,形成一个新片段L;
3)重复步骤1)和步骤2),继续判断新片段L是否在前缀词典Df中,直至输入企业研发资源信息文本语料库T文本遍历结束;
4)生成输入企业研发资源信息文本语料库T文本中汉字所有可能成词情况所构成的有向无环图DAG。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110318900.0/1.html,转载请声明来源钻瓜专利网。