[发明专利]用于挖掘信息的方法和装置有效
申请号: | 201610937725.2 | 申请日: | 2016-10-25 |
公开(公告)号: | CN107977379B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 屈冰欣;曾刚 | 申请(专利权)人: | 百度国际科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 挖掘 信息 方法 装置 | ||
本申请公开了用于挖掘信息的方法和装置。所述方法的一具体实施方式包括:确定待挖掘文本信息集合中的问答文本信息,待挖掘文本信息集合中的各条待挖掘文本信息中包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词;对待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息;对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息;对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。该实施方式实现了实体关系信息的准确挖掘。
技术领域
本申请涉及计算机技术领域,具体涉及信息挖掘,尤其涉及用于挖掘信息的方法和装置。
背景技术
随着计算机的普及以及互联网技术的迅猛发展,大量的信息得到了共享,面对海量的信息,迫切需要一些方法能帮助人们在海量信息源中迅速获取真正需要的信息,在获取信息的过程中,往往需要对文本进行命名实体的识别,并挖掘实体之间的关系。
由于受上下文之间的连续性、文本中词语的灵活多变性等因素的影响,使实体关系的挖掘显得更加困难。例如,现有的实体关系挖掘方法往往不能很好的处理包含封闭式问答信息的文本信息,比如,患者提问“糖尿病人可不可以多吃燕麦?”,医生回答“可以多吃”;若将患者提问和医生回答连接起来处理,则只会挖掘出糖尿病人不可以多吃燕麦的关系,而这个关系是与该文本信息表达的真实意思不相符的。因此,现在亟需一种能够准确挖掘实体之间关系的方法。
发明内容
本申请的目的在于提出一种改进的用于挖掘信息的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种用于挖掘信息的方法,包括:确定待挖掘文本信息集合中的问答文本信息,其中,所述待挖掘文本信息集合中包括问答文本信息和非问答文本信息,所述待挖掘文本信息集合中的各条待挖掘文本信息中包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词,第一实体词和第二实体词是根据所表示实体所属类别划分的;对所述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息;对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息;对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。
在一些实施例中,所述方法还包括:根据预先设定的映射规则将各关系词进行映射,得到各关系词的映射关系词。
在一些实施例中,所述对所述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息,包括:将问答文本信息的提问部分进行切词处理,获得提问部分的实体词集合,其中,问答文本信息包括提问部分和回答部分;确定提问部分的实体词集合中包括第一实体词、第二实体词、以及关系词;从问答文本信息的回答部分中搜索距离提问部分最近的关系词;判断搜索得到的关系词的前后是否存在否定词;如果存在,则对第一实体词和第二实体词的关系进行反转;基于搜索得到的关系词的映射关系词或反转结果得到问答文本信息中第一实体词和第二实体词的待确定实体关系信息,并删除提问部分中的关系词和第二实体,得到分析处理后的问答文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度国际科技(深圳)有限公司,未经百度国际科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610937725.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式数据聚合方法和装置
- 下一篇:用于生成页面的方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置