[发明专利]一种挖掘规则关联模型未知关联关系的方法及装置有效
申请号: | 201710556213.6 | 申请日: | 2017-07-10 |
公开(公告)号: | CN107315831B | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 李德彦;席丽娜;晋耀红 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458;G06N20/00 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 规则 关联 模型 未知 关系 方法 装置 | ||
1.一种挖掘规则关联模型未知关联关系的方法,其特征在于,所述方法包括:
获取规则关联模型和至少一个样本信息,所述规则关联模型包括N个元组,N为大于1的正整数,每个所述元组包括至少一个概念,所述样本信息为选取的文本信息;
根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理,得到至少一个标准样本信息;
将所述至少一个标准样本信息进行切词和去停用词处理,得到每个所述标准样本信息所对应的关键词集;
根据所述关键词集,按照预设算法,计算得到二元关系表达式列表,二元关系表达式是所有频繁集两两组合得到的集合中支持度大于或等于预设支持度的集合所包含的两个关键词的对应关系,所述频繁集为由关键词生成且支持度大于或等于预设支持度的候选集;
将所述二元关系表达式列表和所述规则关联模型的候选关联表达式列表进行匹配,所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表,每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成;
根据匹配结果,建立所述规则关联模型的相邻两个元组的概念的关联关系;
所述根据所述关键词集,按照预设算法,计算得到关联表达式列表的步骤包括;
根据所述关键词集,生成与所述关键词集对应的上下文词空间向量模型;
根据所述上下文词空间向量模型,计算得到二元关系表达式列表;
所述根据匹配结果,建立所述规则关联模型的相邻两个元组的概念的关联关系的步骤包括:
如果所述二元关系表达式列表的第一二元关系表达式与所述候选关联表达式列表的第一候选关联表达式相匹配,则判断所述第一候选关联表达式是否满足预设条件,所述第一二元关系表达式是所述二元关系表达式列表中任意的一个二元关系表达式,所述第一候选关联表达式是所述候选关联表达式列表中任意的一个候选关联表达式;
如果满足预设条件,则建立所述规则关联模型中所述第一候选关联表达式对应的关联关系。
2.如权利要求1所述的方法,其特征在于,所述根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理的步骤包括:
判断当前概念是否有对应的概念值表达式列表;
如果所述当前概念有对应的概念值表达式列表,则获取所述概念值表达式列表;
将所述概念值表达式列表的每个概念值表达式与第一样本信息进行匹配,所述第一样本信息是所述至少一个标准样本信息中的任意一个标准样本信息;
如果第一概念值表达式与所述第一样本信息相匹配,则将所述第一样本信息中与所述第一概念值表达式相匹配的信息替换为当前概念,所述第一概念值表达式是所述概念值表达式列表的任意一个概念值表达式。
3.如权利要求2所述的方法,其特征在于,所述根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理的步骤还包括:
如果所述当前概念没有对应的概念值表达式列表,则将所述当前概念与所述第一样本信息进行匹配;
如果所述当前概念与所述第一样本信息匹配,则将所述第一样本信息中与所述当前概念相匹配的信息替换为所述当前概念。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司,未经北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710556213.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能分析文档的方法及系统
- 下一篇:一种原子化元素的录入方法及系统