[发明专利]一种确定相关对象的方法和装置有效
申请号: | 201510882827.4 | 申请日: | 2015-12-04 |
公开(公告)号: | CN105512270B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 葛宁 | 申请(专利权)人: | 上海优扬新媒信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 201210 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 相关 对象 方法 装置 | ||
本发明公开了一种确定相关对象的方法和装置。其中一种确定相关对象的方法包括:依据对象的原始语料文档确定对象的对象类型和对象主题;按照对象类型聚合对象,得到一个以上的对象簇;依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。应用本发明所提供方法和装置,可以自动实现待分析对象的相关对象的确定,克服了现有技术中通过经验分析法进行数据分析造成的人力成本过高,并且分析结果受限于分析人员的经验和市场活动范围的缺陷。
【技术领域】
本发明涉及计算机数据处理的技术领域,尤其涉及一种确定相关对象的方法和装置。
【背景技术】
随着互联网的发展,人们可以从互联网网页、企业网站、或者提供特定信息服务的数据库等外部数据源获取越来越多的原始数据信息,这些原始数据信息可以为人们提供大量所需要的内容。然而,由于通过外部数据源所获取的信息数量庞大、单位价值相对较低、几乎全是以原始语料文档的方式存在,因此如何处理这些原始数据信息以获得人们想要的内容,或者如何分析原始数据信息中这些内容之间的关系以便为人们提供服务,是目前亟待解决的问题。
现有的处理和分析原始数据信息的方式通常是依据从业或者分析人员的经验,将采集的原始数据信息通过人工的方式进行分析和判断以提取出有用的内容。
但是通过经验分析法进行数据分析,人力成本过高,并且分析结果受限于分析人员的经验和市场活动范围。
【发明内容】
本发明提供了一种确定相关对象的方法和装置,用以降低人力成本,提高准确性。
具体技术方案如下:
本发明提供了一种确定相关对象的方法,所述方法包括:
依据对象的原始语料文档确定对象的对象类型和对象主题;
按照对象类型聚合对象,得到一个以上的对象簇;
依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。
根据本发明一优选实施例,所述依据对象的原始语料文档确定对象的对象类型和对象主题具体包括:
从外部数据源获取对象的原始语料文档;
从所述对象的原始语料文档中提取类型关键词集合和主题关键词集合;
将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词集合所匹配到的标准对象主题作为对象主题。
根据本发明一优选实施例,所述将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词集合所匹配到的标准对象主题作为对象主题具体包括:
将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类知识库和标准主题分类知识库进行匹配;
确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型分类,以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主题分类;
依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主题。
根据本发明一优选实施例,按照对象类型聚合对象,得到一个以上的对象簇包括:
查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构的位置;
若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符合预设的要求,则确定该各对象属于同一对象簇。
根据本发明一优选实施例,采用如下方式确定对象之间的主题相似度:
分别确定各对象的主题向量,所述主题向量由对象的每个对象主题构成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海优扬新媒信息技术有限公司,未经上海优扬新媒信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510882827.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:组合物用于制备血管新生异常的药物的用途
- 下一篇:用于账号登录的方法和装置