[发明专利]一种知识共享平台的词条处理装置和方法有效
| 申请号: | 201410268830.2 | 申请日: | 2014-06-16 |
| 公开(公告)号: | CN104021202B | 公开(公告)日: | 2017-11-24 |
| 发明(设计)人: | 李永强 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京铭硕知识产权代理有限公司11286 | 代理人: | 王艳娇 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 知识 共享 平台 词条 处理 装置 方法 | ||
技术领域
本发明涉及一种知识共享平台的词条处理装置和方法,更具体地讲,涉及一种网络百科的词条处理装置和方法。
背景技术
随着互联网技术的快速发展,在互联网上能够为用户提供的内容也越来越多,互联网的用户更加倾向于在互联网上搜寻自己想要了解的内容。然而,在用户从互联网搜寻想要了解的内容时,互联网所能够提供的结果通常过于繁杂,并且与用户想要了解的内容可能并不十分相关,这使得用户感到非常的不便。
在互联网上提供的百科应用是一种能够供用户查检所需知识和事实资料的在线资料应用,通常以词条的形式向用户提供相关的知识内容。并且由于互联网能够提供更加丰富的资料,因此现在的互联网百科应用所能够提供的词条内容也越来越详细,不仅包括对于词条的说明,还会包括与词条相关的一些其他内容。例如,如图1A中所示,当展示词条“红楼梦”的相关内容时,不仅会展示对于红楼梦这部作品的内容介绍,还会展示与红楼梦相关的其他信息,诸如作者简介、人物介绍等等内容。由于展示的内容通常较多,因此如图1A中所示,会以目录的形式对这些内容进行归类,以便于用户查看相应内容。
然而,在百科词条之间会存在许多相似或重复的内容。例如,如图1B所示,在词条“红楼梦”的目录项“作者简介”部分,以大量的篇幅介绍了作者“曹雪芹”,而在百科中,“曹雪芹”也是一个百科词条,词条“红楼梦”的部分词条内容与词条“曹雪芹”相似或重复,在词条“红楼梦”的词条内容中以大量的篇幅介绍了与另一词条相关的一些内容。也就是说,在一个词条的词条内容中,通常会存在与其他词条相关的一些内容,这可能导致在向用户展示与该词条相关的内容时,展示的内容过多使得用户难以很快的找到想要的信息,并且这样的词条展示方式需要大量的存储空间来存储每个词条的词条内容。此外,如图1B中所示,尽管在词条“红楼梦”的相关词条内容中包括对作者曹雪芹的一些介绍,但相对于词条“曹雪芹”中提供的与曹雪芹相关的信息而言,这些介绍可能不够详细。因此,需要一种新的百科词条内容设置方法使得能够以更加简洁、高效的方式向用户展示词条的相关信息。
发明内容
根据本发明的一方面,提供了一种知识共享平台的词条处理装置,所述装置包括:候选词条获取单元,用于根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容,获取与所述第一目录关联的候选词条及其词条内容;内容比较单元,用于计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度;词条确定单元,用于根据内容比较单元计算的文本相似度,从候选词条中确定与所述第一目录相关的词条。
所述候选词条获取单元可使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。
所述内容比较单元可使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。
所述词条确定单元可具体用于:将针对特定候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条。
所述词条确定单元还可用于:确定所述特定候选词条是否满足预设的多条后处理规则;如果所述特定候选词条满足预设的多条后处理规则中的第N条,则所述词条确定单元确定所述第N条后处理规则对应的阀值,并判断针对所述特定候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值,如果高于,则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条,N为自然数。
根据本发明的另一方面,提供了一种知识共享平台的词条处理方法,所述方法包括:根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容,获取与所述第一目录关联的候选词条及其词条内容;计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度;根据计算的文本相似度,从候选词条中确定与所述第一目录相关的词条。
可使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。
可使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。
确定与所述第一目录相关的词条的步骤具体可包括:将针对特定候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则将所述特定候选词条确定为与所述第一目录相关的词条。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410268830.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一体式室内外空气交换机
- 下一篇:一种锂离子电池的化成方法





