[发明专利]自助分类系统有效
申请号: | 201780006568.6 | 申请日: | 2017-04-04 |
公开(公告)号: | CN108463795B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | S·赫兹;H·扎罗西姆;O·哈扎伊;O·罗姆;E·阿济克利;L·温特劳布;Y·林德曼;E·魏因雷布;S·卡拉曼;Y·本什洛莫;D·莱文森;E·沙拉比;A·R·戈德什拉格 | 申请(专利权)人: | 金融及风险组织有限公司 |
主分类号: | G06F3/0482 | 分类号: | G06F3/0482;G06F40/205;G06F16/35;G06K9/62;G10L15/18 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 陈潇潇;肖冰滨 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自助 分类 系统 | ||
1.一种自助分类方法,包含:
接收包含肯定标记的文档集和未标记文档集的文档集,其中所述肯定标记的文档集为包含或讨论一个主题的文档,所述未标记文档集为对于讨论一个主题没有被指定为肯定或否定的文档;
处理所述文档集以移除所述文档内的副本文档和噪声;
为所述文档集中的主题集中的每个主题生成初步模型;
训练所述初步模型以基于缩减的文档集来确定附加的肯定的和否定的文档集,其中所述缩减的文档集包括肯定标记的文档集和所述未标记文档集的小子集,其中所述训练包括:
识别所述文档集中的肯定文档所遵循的规则集;
通过所识别的规则集来识别并排除所述未标记文档集中的明确否定文档,所述明确否定文档为不遵循所述规则集的文档,且所述明确否定文档被从所述未标记文档集中移除,以留下遵循所述规则集的所述未标记文档集的所述小子集;并且
从所述缩减的文档集中提取所述附加的肯定的和否定的文档集;并且
使用所述训练的初步模型和所述附加的肯定的和否定的文档集生成定制的分类模型,其中生成所述定制的分类模型包括将所述确定的附加的肯定的和否定的文档集应用于所述初步模型。
2.根据权利要求1所述的方法,其中训练所述初步模型进一步包含应用最近相邻链接算法。
3.根据权利要求1所述的方法,进一步包含:
在预定的测试文档集上测试所述定制的分类模型,并向用户呈现与所述测试相关的精度和查全率值。
4.根据权利要求1所述的方法,进一步包含:
提供所述定制的分类模型并且至少提供精度和查全率值。
5.根据权利要求1所述的方法,进一步包含:
使用分类规则、特征选择、用户反馈或它们的组合中的一个来调整所述初步模型和所述定制的分类模型;
生成调整的初步模型和调整的定制的分类模型;并且
提供所述调整的定制的分类模型并且至少提供更新的精度和查全率值。
6.根据权利要求5所述的方法,其中使用分类规则进行调整包含:
向用户界面提供短语列表;并且
响应于包含或排除选项,将选择的短语列表应用于所述文档集,其中文档包含指示所选主题的一个或多个来自所述短语列表中的短语。
7.根据权利要求5所述的方法,其中使用特征选择进行调整包含向用户界面提供特征列表,所述特征列表进一步包含表征与主题相关联的文档的短语列表,并且响应于包含或排除选项,将选择的特征列表应用于所述文档集。
8.根据权利要求5所述的方法,其中使用用户反馈进行调整包含在用户界面上提供可选对话框以指示对与主题相关的文档进行的确认。
9.根据权利要求7所述的方法,进一步包含基于排名来加权所述特征列表。
10.根据权利要求5所述的方法,进一步包含发布所述调整的定制的分类模型。
11.根据权利要求1所述的方法,进一步包含:
使用所述肯定标记的文档集和所述否定的文档集验证所述主题集。
12.根据权利要求11所述的方法,进一步包含通过用户界面确定主题具有足够用于验证的文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金融及风险组织有限公司,未经金融及风险组织有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780006568.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多模态感测表面
- 下一篇:显示装置以及显示控制方法