[发明专利]基于语义实体关系模型和可视化推荐的信息浏览检索方法有效
| 申请号: | 200910199284.0 | 申请日: | 2009-11-24 |
| 公开(公告)号: | CN101706794A | 公开(公告)日: | 2010-05-12 |
| 发明(设计)人: | 罗迒哉;范建平 | 申请(专利权)人: | 上海显智信息科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹 |
| 地址: | 200062 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 语义 实体 关系 模型 可视化 推荐 信息 浏览 检索 方法 | ||
1.一种基于语义实体关系模型和可视化推荐的信息浏览检索方法,其步骤为:
步骤1、从互联网或者私有数据库中定时搜集数据;
步骤2、从步骤1获得的文档数据、具有语音的音频数据或具有配音的 视频数据或具有标题的图像数据中提取语义实体和关系,从而将数据转换成 以语义实体和关系表示的形式,语义实体被定义为在用户所关注的时间段内 有稳定含义的任何实体,关系则存在于任何一对语义实体之间,其中,
从文档数据中提取语义实体的方法为:待处理的所有文档(D1)经词典 分词装置(S1)以预设的词典(D2)为依据分解为词语流,然后分别经CRF 边界预测装置(S2)和统计特征提取装置(S3)提取各种字符串组合的相应 的边界特征和统计特征,最后,同一字符串的边界特征(D3)和统计特征(D4) 同时送入SVM分类装置(S4)作为特征矢量由SVM算法进行分类,被SVM分 类装置(S4)识别为文字语义实体的所有字符串即构成步骤2所述的语义实 体;
从具有语音的音频数据提取语义实体的方法为:首先利用自动语音识别 技术将音频转换成文字串,然后利用上所述的从文档数据中提取语义实体的 方法来提取其中的语义实体,从而得到步骤2所述的语义实体;
从具有配音的视频数据或具有标题的图像数据中提取语义实体的方法 为:
步骤2.1、分割
将每幅配图看作一个语义实体,同时将视频中的每个镜头看作单个的语 义实体,由此将具有配音的视频数据或具有标题的图像数据分割为多个视频 语义实体或图像语义实体;
步骤2.2、归并
对图像,通过上述的从文档数据中提取语义实体的方法从配图的替换文 字和标题中分割出文字语义实体,将该文字语义实体与通过步骤2.1分割得 到的图像语义实体归并为同一语义实体,得到步骤2所述的语义实体;
对视频,将视频的配音用自动语音识别技术转换成文字并用上述的从文 档数据中提取语义实体的方法分割出其中的文字语义实体,对每个从配音中 识别出的文字语义实体,根据配音和视频的同步关系,可以把这个语义实体 同步到视频中的某个镜头,然后,这个文字语义实体就可以和所同步到的镜 头的前后各5个镜头的视频语义实体归并为同一语义实体,得到步骤2所述 的语义实体;
步骤3、通过提取频率,将步骤2得到的数据转换成原始语义实体关系 模型Dr,原始语义实体关系模型Dr在延时后加入历史数据库,所述的频率 为语义实体或关系的出现频率;
步骤4、历史数据库中的数据通过与用户的学习/遗忘曲线卷积后生成表 示用户已有知识的用户知识模型KU;
步骤5、利用用户知识模型KU对原始语义实体关系模型Dr中的数据进 行预测即可生成用户感兴趣的知识,其中,预测步骤为:
步骤5.1、将所述原始语义实体关系模型Dr中的权重项归一化,根据KL- 距离公式计算用户知识模型KU与原始语义实体关系模型Dr之间的总差异;
步骤5.2、把该公式进行分解并去除无关项和正相关函数,可以得到每 个语义实体或关系的局部生疏度w(ej);
步骤5.3、将原始语义实体关系模型Dr中的权重项用局部生疏度w(ej)来 替代,得到一个可较好地表达用户感兴趣信息的数学模型,在该模型中,具 有较高权重的语义实体或关系更可能吸引用户,而权重较低的语义实体和关 系则对用户意义不大,可以略去;
步骤6、将通过所述步骤5得到的数据经过检索过滤并通过双曲几何布 局装置显示在可视化用户操作界面上,或者直接通过双曲几何布局装置显示 在可视化用户操作界面上。
2.如权利要求1所述的一种基于语义实体关系模型和可视化推荐的信息浏览检 索方法,其特征在于,步骤3中所述原始语义实体关系模型Dr在数学上表示 为:
Dr={(ei,f(ei))|1≤i≤m}∪{(rj,f(rj))|1≤j≤n},其中ei表示一个语义实 体,f(ei)表示ei出现的频率;rj表示一对语义实体之间的关系,f(rj)表示rj出现的频率,m表示语义实体的个数,n表示关系的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海显智信息科技有限公司,未经上海显智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910199284.0/1.html,转载请声明来源钻瓜专利网。





