[发明专利]面向人物传记的事件分类方法无效
| 申请号: | 201110095809.3 | 申请日: | 2011-04-18 |
| 公开(公告)号: | CN102200997A | 公开(公告)日: | 2011-09-28 |
| 发明(设计)人: | 周文;葛晶 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 人物传记 事件 分类 方法 | ||
技术领域
本发明属于智能信息处理技术,更进一步是关于文本的分类处理的技术,具体涉及一种面向人物传记的事件分类方法。
背景技术
随着网络、信息化技术的快速发展,数字化文档信息的极大丰富,对文本,资料,网页等的分类处理已成为信息处理的重要技术手段。文本分类的方法有很多,典型的方法有:
(1)朴素贝叶斯分类器 (Lewis D.. Naive bayes at forty: The independence assumption in information retrieval. In: Proceeding of the 10th European Conference on Machine Learning,Chemnitz,Germany,1998,4~5) 朴素贝叶斯分类器是一种广泛使用的分类算法,其计算效率和分类效果均十分理想。朴素贝叶斯分类器与其他方法相比最大的优势或许就在于,它在接受大数据量训练和查询时所具备的高速度。朴素贝叶斯分类器的最大缺陷就是,它无法处理基于特征组合所产生的变化结果。
(2)基于向量空间模型的分类器 (Salton G.. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Reading, MA: Addison-Wesley,1989) 向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。
(3)用支持向量机的分类器 (Joachims T.. Text Categorization with support vector machines: Learning with many relevant features. In: Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, 1998, 137~142)
它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器。他们也可以认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。
这些技术是对于所有文本类别的分类,分类的粒度较大,而人物传记需要的与人物相关的事件信息往往只涉及到一个语句,如果直接用上述分类器进行分类,将无法达到对事件分类的效果。以上的这些方法严重依赖于外部知识,尤其是领域知识。受知识获取的瓶颈限制,这些方法只在受限领域得到成功应用。
本发明突破了这些传统的分类技术,不再把文本作为分类的对象,而是将文本中所涉及的与人物相关的事件进行分类,分类的对象粒度更细,分类的目标是为了进一步用于人物传记的生成。本发明还摆脱了知识获取的束缚,在训练分类事件后还能根据当前已分类事件特征形成新的语料。
发明目的
本发明的目的在于针对已有技术存在的缺陷,提供一种面向人物传记的事件分类方法。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明的目的在于解决已有技术问题是提供一种面向人物传记的事件分类方法,提高人物事件识别准确率。一种面向人物传记的时间分类方法,其特征在于操作步骤如下:
A. 构建训练语料库;
B. 词库的训练;
C. 人物事件分类。
上述步骤A训练语料库的构建具体步骤如下:
A1.从互联网或其他信息源获取人物描述语言的文本;
A2.标注语句的类型,语料标注的类别有:性别、民族、出生时间、出生地、党派、现任职务、学习经历,若所标注的人物为科学家,则标注的类别还有:发表文章、参与项目;
A3.如果一句语句有多个类型,则标注多个类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110095809.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电动压缩机
- 下一篇:一种版面信息提取和加工的方法





