[发明专利]基于语义实体关系模型和可视化推荐的信息浏览检索方法有效
| 申请号: | 200910199284.0 | 申请日: | 2009-11-24 |
| 公开(公告)号: | CN101706794A | 公开(公告)日: | 2010-05-12 |
| 发明(设计)人: | 罗迒哉;范建平 | 申请(专利权)人: | 上海显智信息科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹 |
| 地址: | 200062 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 语义 实体 关系 模型 可视化 推荐 信息 浏览 检索 方法 | ||
技术领域
本发明涉及一种基于语义实体关系模型和可视化推荐的新型海量信息浏览 检索技术,用于实现海量非结构化信息浏览检索等服务。
背景技术
海量非结构化数据(例如:Internet)中隐藏着丰富的信息。这些信息可以 为数据的拥有者在众多方面提供有价值的情报。例如,国家安全部门可以从别国 新闻报道中分析其对我国的真实态度,企业可以从自己的经营数据中检测异常的 交易以防止损失扩大化,等等。但是,这些信息都深深地隐藏在大量的数据中。 要获得这些信息,用户必须大量浏览所拥有的数据,从中挖掘出自己感兴趣的部 分。由于数据量是如此之大,人工浏览和整理这些信息的方法是不可能胜任的。
目前,搜索引擎技术通过把数据分解成简单关键字并利用倒排文件索引、布 尔检索和排序技术(例如:PageRank和HITS)实现了对海量数据的索引和检索, 是目前半自动获取这些信息的最先进技术。
但是,现有的搜索引擎技术仍然难以满足这方面的用户需求。其一,搜索引 擎技术要求用户的需求必须明确和具体。这是因为只有明确和具体的需求才能翻 译成查询关键字。但是,在大多数涉及海量数据的应用中,用户是没有具体需求 的。例如,用户希望浏览新闻的时候,一般是不清楚究竟有什么事件发生了(否 则就不是新闻了);金融监管机构希望监控异常交易的时候,更无法定义什么是 “异常”。在这种情况下,用户难以找到合适的关键字来描述自己的需求,就难 以使用任何搜索引擎技术来获得自己需要的信息了。
为解决这个问题,推荐和浏览是必不可少的手段。由于用户对需求不明确, 系统就必须对所有数据进行分析、综合和摘要,然后把最有可能吸引用户的信息 直观、高效地展示给用户,让用户在浏览信息的过程中发现最需要的信息。而要 实现这一点,就必须要实现以下三个功能:第一、对海量数据挖掘和分析,并对 所有信息的用户关注度进行定量评价;第二、将所有信息直观、高效地展示给用 户;第三、提供浏览和分析海量信息的手段,以便用户在海量数据中发现自己确 实需要的信息。目前的搜索引擎技术不能实现这三个功能,所以难以在这些领域 获得好的效果。
发明内容
本发明的目的是提供一种通过对海量多媒体非结构化数据的挖掘和分析把 最有可能吸引用户的信息直观、高效地展示给用户,让用户在浏览信息的过程中 发现最需要的信息的检索方法。
为了达到上述目的,本发明的技术方案是提供了一种基于语义实体关系模型 和可视化推荐的信息浏览检索方法,其步骤为:
步骤1、从互联网或者私有数据库中定时搜集数据;
步骤2、从步骤1获得的文档数据、具有语音的音频数据或具有配音的视频 数据或具有标题的图像数据中提取语义实体和关系,从而将数据转换成以语义实 体和关系表示的形式,语义实体被定义为在用户所关注的时间段内有稳定含义的 任何实体,关系则存在于任何一对语义实体之间,其中,
从文档数据中提取语义实体的方法为:待处理的所有文档经词典分词装置以 预设的词典为依据分解为词语流,然后分别经CRF边界预测装置和统计特征提取 装置提取各种字符串组合的相应的边界特征和统计特征,最后,同一字符串的边 界特征和统计特征同时送入SVM分类装置作为特征矢量由SVM算法进行分类,被 SVM分类装置识别为文字语义实体的所有字符串即构成步骤2所述的语义实体;
从具有语音的音频数据提取语义实体的方法为:首先利用自动语音识别技术 将音频转换成文字串,然后利用上所述的从文档数据中提取语义实体的方法来提 取其中的语义实体,从而得到步骤2所述的语义实体;
从具有配音的视频数据或具有标题的图像数据中提取语义实体的方法为:
步骤2.1、分割
将每幅配图看作一个语义实体,同时将视频中的每个镜头看作单个的语义实 体,由此将具有配音的视频数据或具有标题的图像数据分割为多个视频语义实体 或图像语义实体;
步骤2.2、归并
对图像,通过上述的从文档数据中提取语义实体的方法从配图的替换文字和 标题中分割出文字语义实体,将该文字语义实体与通过步骤2.1分割得到的图像 语义实体归并为同一语义实体,得到步骤2所述的语义实体;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海显智信息科技有限公司,未经上海显智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910199284.0/2.html,转载请声明来源钻瓜专利网。





