[发明专利]基于本体模型和多核支持向量机的情感原因抽取方法在审
申请号: | 201811303734.1 | 申请日: | 2018-11-02 |
公开(公告)号: | CN109670045A | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 谢英杰;孙越恒;王文俊 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/951;G06F17/27;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程小艳 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多核支持向量机 支持向量机算法 抽取 语料库 构建 基础本体 模型构建 事件聚类 事件识别 文本信息 行为概念 因果关系 预测 算法 标注 融合 地域 拓展 应用 发现 | ||
1.基于本体模型和多核支持向量机的情感原因抽取方法,其特征在于,该方法主要步骤为:首先构建情感原因语料库;然后根据ABC本体模型构建情感原因本体模型;在此模型上基于支持向量机算法对情感原因事件进行识别。
2.根据权利要求1所述的基于本体模型和多核支持向量机的情感原因抽取方法,其特征在于,具体步骤如下:
1)编写爬虫代码,爬取新闻数据,每一条新闻数据内容包括:帖子标题、帖子内容、帖子发表时间、新闻url;
2)对数据进行预处理,去掉停用词,进行分词;
3)构建情感原因语料库;
4)根据ABC本体模型构建情感原因本体模型;
5)通过融合情感原因领域中情感事件、情感原因、人、地域、行为等概念与概念之间的关系拓展情感原因本体模型;
6)根据三元关系构建情感原因树;
7)判断输入语句是否含有情感词;
8)利用支持向量机算法对情感原因事件进行抽取;
9)采用精确率P值,召回率R值和F值对情感事件抽取算法进行评估;
10)在情感原因本体模型上对情感原因进行分析。
3.根据权利要求2所述的基于本体模型和多核支持向量机的情感原因抽取方法,其特征在于,所述步骤1)主要是利用JAVA语言在myeclipse的环境平台下,利用包括Struts,Spring,Hibernate框架技术进行实现。
4.根据权利要求2所述的基于本体模型和多核支持向量机的情感原因抽取方法,其特征在于,所述步骤2)中用现有的中文分词工具进行数据预处理操作,预处理步骤包括去掉停用词、断句、分词、词性标注或语义分析。
5.根据权利要求4所述的基于本体模型和多核支持向量机的情感原因抽取方法,其特征在于,所述断句处理主要是利用现有的分词器实现。
6.根据权利要求5所述的基于本体模型和多核支持向量机的情感原因抽取方法,其特征在于,所述分词器主要包括word分词器、Ansj分词器、斯坦福分词、Lucene&Nutch分词器、斯坦福分词器或Lucene&Nutch分词器、Hanlp、Jieba。
7.根据权利要求2所述的基于本体模型和多核支持向量机的情感原因抽取方法,其特征在于,所述步骤4)情感原因本体模型主要是根据前因-行为-后果的ABC本体模型进行构建,ABC本体模型主要是根据事件进行建模,事件的内容主要是通过agent、action、situation、event、place描述。
8.根据权利要求2所述的基于本体模型和多核支持向量机的情感原因抽取方法,其特征在于,所述步骤5)具体是:对导致事件因子进行扩展、对地域进行扩展、对情感进行扩展。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811303734.1/1.html,转载请声明来源钻瓜专利网。