[发明专利]一种网页信息数据挖掘通用方法在审
申请号: | 201810254857.4 | 申请日: | 2018-03-26 |
公开(公告)号: | CN108509571A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 刘莎 | 申请(专利权)人: | 刘莎 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400000 重庆市九*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页信息 关键词搜索 数据挖掘 全文关键字 搜索结果 通用数据 系统分析 信息分类 信息特征 摘要提取 系统化 权重 通用 挖掘 应用 | ||
1.一种网页信息数据挖掘通用方法,其特征在于包括以下步骤:
获得数据挖掘组织结构词及数据挖据内容关键词;
用获得的数据挖掘组织结构词匹配网页信息全文关键词;
根据数据挖掘组织结构词与网页信息全文关键词的匹配结果判断网页信息类型 ;
在已确定信息类型的网页信息中,用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数;
根据匹配成功的网页信息组织结构词、网页信息内容关键词以及获得的关键词参数抽取和整理网页信息摘要;
用获得的与数据挖掘目的相匹配的数据挖掘算法处理抽取到的网页信息摘要;
将网页信息摘要处理结果转换为用户所需的数据挖掘可视化结果并进行显示;
其中,
所述的数据挖掘组织结构词,是指从数据挖掘需求方获得的互联网信息通用顶层组织结构词及相关下层组织结构词;
所述的数据挖据内容关键词,是指从数据挖掘需求方获得的数据挖掘组织结构词下的关键词;
所述的网页信息全文关键词,是指任意网页文字信息中的可直接检索到的关键词,但不包括关键词属性标记;
所述的网页信息组织结构词,是指用数据挖掘方提供的数据挖掘组织结构词检索到的网页信息关键词;
所述的网页信息内容关键词,是指用数据挖掘方提供的数据挖掘内容关键词检索到的网页信息关键词;
所述的关键词参数,是指在进行网页信息摘要抽取和整理时提供的辅助性参数;
所述的网页信息类型,是指可对任意网页信息进行通用分类的网页信息类型;
所述的获得网页信息数据挖掘组织结构词及数据挖据内容关键词的方法,包括从网页信息数据挖掘人机交互通用模板上获得数据挖掘组织结构词、数据挖据内容关键词;
其中所述的网页信息数据挖掘人机交互通用模板的预设内容包括:主题关键词输入框,各项分类下的数据挖掘通用组织结构词以及该数据挖掘组织结构词下的数据挖据内容关键词输入框和供用户选择数据挖掘相关需求及挖掘目的自由输入框。
2.权利要求1中所述的在已确定信息类型的网页信息中,用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数的方法还包括以下步骤:
获得关键词的相关参数;
用获得的关键词参数辅助抽取和整理网页信息全文摘要;
获得摘要质量评估数据;
根据网页信息摘要质量评估数据调整预设的关键词参数 ;
采用调整后的关键词参数再次抽取相同网页信息摘要并进行摘要信息整理;
其中,
所述的关键词参数包括:网页信息关键词位置参数、关键字比例参数1、关键字比例参数2关键词距离参数、关键词相关性参数1、关键词相关性参数2、相关性参数1和参数2的关联参数、数据挖掘组织结构词权重参数、数据挖掘内容关键词权重参数、网页信息可结构化参数、各类参数的权重参数、网页信息分类效率指数、网页信息摘要质量指数;
其中,
所述的关键词位置参数,是指某一匹配成功的关键词在网页信息中的所处位置;
所述的关键字匹配度参数1,是指不同网页信息或文本中的相同关键词匹配成功的次数之比;
所述的关键字匹配度参数2,是指同一网页信息或文本中的不同关键词匹配成功的次数之比;
所述的关键词距离参数,是指在同一网页信息中的核心关键词之间的其它关键词插入数量;
所述的关键词相关性参数1,是指数据挖掘组织结构词与数据挖掘内容关键词之间的组合频率;
所述的关键词相关性参数2,是指用数据挖掘组织结构词、数据挖掘内容关键字检索到的网页信息全文中的网页信息组织结构词与网页信息内容关键词的组合频率;
所述的相关性参数1和参数2的关联参数,是指相关性参数1与相关性参数2的动态比值;
所述的数据挖掘组织结构词权重参数,是指本发明预设的数据挖掘组织结构词之间的权重参数;
所述的数据挖掘内容关键词权重参数,是指根据数据挖掘组织结构词的权重参数所获得的该组织结构词下的数据挖掘内容关键词的权重参数;
所述的网页信息可结构化参数,是指用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词后,获得的某条网页信息的组织结构词的数量与网页信息内容关键词的数量之乘积;
所述的各类参数之间的权重参数,是指预设的各类关键词参数之间的价值参数;
其中,
所述的摘要质量评估数据,包括网页信息分类效率指数、网页信息摘要质量指数;
所述的网页信息分类效率指数,是指已获得的网页信息自动分类结果与专业化人工分类结果的准确度之比;
所述的网页信息摘要质量指数,是指根据预设的网页信息摘要参数计算出的网页信息摘要质量指数;
其中所述的网页信息摘要质量参数包括网页信息摘要信息的可用性、完整性、可靠性;
其中,
所述的网页信息摘要可用性,是指所检索到的网页信息组织结构词与网页信息内容关键词之间的相关性;
所述的网页信息摘要完整性是指抽取到的摘要信息的完整性;
所述的网页信息摘要可靠性,是指抽取到的摘要信息的准确性;
其中,
所述的关键词位置参数、关键字比例参数1-2、关键词距离参数,从网页信息检索结果数据库获得;
所述的关键词相关性参数1从数据挖掘需求信息数据库获得;
所述的关键词相关性参数2从网页信息检索结果数据库获得;
所述的相关性参数1和参数2的关联参数,从数据挖掘需求数据库和网页信息检索结果数据库获得;
所述的数据挖掘组织结构词之间的权重参数、数据挖掘内容关键词之间的权重参数、网页信息可结构化参数、各类参数之间的权重参数,从本发明应用系统中预设的关键词参数数据库获得;
所述的网页信息分类效率指数、网页信息摘要质量指数,从本发明应用系统中的摘要质量检测参数数据库获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘莎,未经刘莎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810254857.4/1.html,转载请声明来源钻瓜专利网。