[发明专利]电商本体构建方法有效
申请号: | 201711305840.9 | 申请日: | 2017-12-11 |
公开(公告)号: | CN108052583B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 章振增 | 申请(专利权)人: | 康成投资(中国)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/31;G06F40/216;G06F40/284 |
代理公司: | 上海盈盛知识产权代理事务所(普通合伙) 31294 | 代理人: | 孙佳胤 |
地址: | 200436*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 本体 构建 方法 | ||
1.一种电商本体构建方法,其特征在于,包括如下步骤:
构建问答语料库、日常语料库、商品语料库,所述问答语料库中包括多组客服与客户的会话;
对所述问答语料库中的会话进行分词处理以获取多个候选词,通过统计分析获取每一候选词的词频,并按照词频从大到小的顺序对多个候选词进行排序,以获取每一候选词在所述问答语料库中的排名以及所有词频按照从大到小顺序排列的词频集合;
分别计算每一候选词在所述日常语料库、所述商品语料库中的排名与所述问答语料库中排名之间的距离,计算公式如下式(1)所示:
式中,n表示候选词的数量,r1k表示第k个候选词在所述问答语料库中的排名,r2k表示第k个候选词在所述日常语料库或所述商品语料库中的排名,表示第k个候选词在所述日常语料库或所述商品语料库中的排名与所述问答语料库中的排名之间的距离;
分别计算每一候选词在所述日常语料库、所述商品语料库与所述问答语料库间的相似度;
根据如下公式(2)调整所述问答语料中所有候选词的排名,以按照调整后的排名先后顺序建立候选词集合:
式(2)中,R是第k个候选词调整后的排名,ρ12表示第k个候选词在所述日常语料库或所述商品语料库与所述问答语料库中的相似度;
对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合;
对任两个本体概念在同一会话中共同出现的概率进行统计分析,以建立本体概念间的关联规则;
对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树;
根据所述本体概念集合、所述关联规则、所述层次关系树建立电商本体。
2.根据权利要求1所述的电商本体构建方法,其特征在于,所述相似度为皮尔逊相关系数。
3.根据权利要求1所述的电商本体构建方法,其特征在于,对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合的具体步骤包括:
将所述词频集合中的词频按照从大到小的顺序依次赋予调整排名后的候选词,使得调整后排名第一的候选词具有最大词频、排名最后的候选词具有最小词频;
采用公式(3)计算每一候选词的核心度:
W(t)=-P(t)log2 P(t) (3)
式中W(t)表示候选词t的核心度,P(t)表示候选词t在所述问答语料库中出现的概率,P(t)根据所述候选词t的词频在所述词频集合中所有词频的总和中所占的比例计算得到;
采用公式(4)对候选词进行降权处理:
式(4)中{time,place,person,number,letter}表示候选词t的实体特征,{n,v}表示候选词t的词性特征,l表示候选词的长度;
对经过降权处理后的候选词汇按照降权处理后的核心度数值从大到小的顺序进行排序,并以排序中前N个对应的候选词作为本体概念,以构建本体概念集合,其中,N为正整数。
4.根据权利要求1所述的电商本体构建方法,其特征在于,所述关联规则包括本体概念间的支持度、置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康成投资(中国)有限公司,未经康成投资(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711305840.9/1.html,转载请声明来源钻瓜专利网。