[发明专利]面向人物传记的事件分类方法无效
| 申请号: | 201110095809.3 | 申请日: | 2011-04-18 |
| 公开(公告)号: | CN102200997A | 公开(公告)日: | 2011-09-28 |
| 发明(设计)人: | 周文;葛晶 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 人物传记 事件 分类 方法 | ||
1.一种面向人物传记的事件分类方法,操作步骤如下:
A. 构建训练语料库
B. 词库的训练
C. 人物事件分类。
2.根据权利要求1所述的面向人物传记的事件分类方法,其特征在于所述步骤A中构建训练语料库的具体操作步骤如下:
A1.从互联网或其他信息源获取人物描述语言的文本;
A2.标注语句的类型,语料标注的类别有:性别、民族、出生时间、出生地、党派、现任职务、学习经历,若所标注的人物为科学家,则标注的类别还有:发表文章、参与项目;
A3.如果一句语句有多个类型,则标注多个类型;
A4.将标注好的文本按照人物类别分开存储,人物类别包括:政治人物,科学家,影视明星;相同的人物类别可有多个文本。
3.根据权利要求1所述的面向人物传记的事件分类方法,其特征在于,所述步骤B中词库的训练, 其操作步骤如下:
B1. 建立词库语句类别,先分别按照人物类别建立政治人物,科学家,影视明星三种人物类别;
B2.在各个人物类别中逐个按照性别、民族、出生时间、出生地、党派、现任职务、学习经历建立语句类别;
B3.如果人物类别为科学家,则额外建立发表文章、参与项目两类类别;
B4. 将已标注语句类别的文本按照人物类别读取;
B5. 分辨其中语句所标注的类别;
B6. 将已标注的语句分词;
B7. 逐个读取分词后得到的词语,每读取一个词语,就将此词语按照其所属语句所标注的类别存放于词库中对应的词语类别当中;
B8. 逐条语句分类直至所有语料分类完毕。
4.根据权利要求1所述的面向人物传记的事件分类方法,其特征在于,所述步骤C人物事件分类,具体操作步骤如下:
C1.获取需要分类的文本以及此文本所描述的相关人物的类别;
C2.将文本按照句子逐句分离;
C3.将分离后的句子进行分词,并逐词读取所得的分词结果;
C4.将词语按照词库中的词语进行匹配,若仅一个类别中有此词语,则此词语属于此类别,记录其在该类别中的权重;若有多个类别中都有此词语,则获取这些类别中该词语的权重,逐个记录;
C5.一条语句中所有词语的权重都分类完毕后,将该条语句中所有词语的各类权重累加,所得的各个类别的权重记为该语句的权重;然后依据该语句的类别,将其置于所属人物的相关语句类别中,并且记录其权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110095809.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电动压缩机
- 下一篇:一种版面信息提取和加工的方法





