[发明专利]基于机器学习的调查问卷自动生成方法有效

专利信息
申请号: 201710980059.5 申请日: 2017-10-19
公开(公告)号: CN107644015B 公开(公告)日: 2020-02-18
发明(设计)人: 林琛;杨颖;林灵婷 申请(专利权)人: 厦门大学;厦门大学深圳研究院
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06F16/35
代理公司: 厦门南强之路专利事务所(普通合伙) 35200 代理人: 马应森
地址: 361005 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 机器 学习 调查 问卷 自动 生成 方法
【权利要求书】:

1.基于机器学习的调查问卷自动生成方法,其特征在于包括以下步骤:

1)使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;

2)输入话题,得到话题与关键短语的关系图,得到覆盖所述关系图的种子问题集;所述输入话题的具体方法是根据给定话题得到相关关键短语,若问题主体或用户对问题的评论中包含关键短语,则将该问题加入种子问题集;

3)对种子问题集进行语义聚类构建语义上相似的问题集合,具体方法为:

使用近邻传播算法进行语义聚类,算法中节点间传递的消息为两类:吸引度R={r(i,j)}和归属度A={a(i,j)},两个信息的更新过程如下:

其中,相似度函数s(i,j)定义如下,使用SF(q)={k,k∈Tq}表示问题q中的关键短语:

构成一个基于双层主题敏感问题图的框架;第一层是问题图,表示问题之间的等价性,根据聚类的结果,将同一类中的问题两两连接;第二层由与给定主题相关的关键短语组成,其中每个节点被分配一个权重;若问题q主体或用户对问题q的评论中包含关键短语k,则将弧a(q,k)添加到双层主题敏感问题图中;

4)对问题集合进行极性匹配,对问题进行极性匹配的原因是,可能问题q1的赞同观点与问题q2的反对观点相同,即极性相反的情况;将问题视为二元分类任务,给定两个问题q,q',训练分类器使得若Pq与Pq'匹配,则输出为正,即极性相同;若Pq与Nq'匹配,则输出为负,即极性相反;使用4个领域的特征:文本、投票情况、人口统计学和情感倾向,从每个领域得出两个特征,分别表示输出为正和负的可能性;

5)删除不合适的问题;

6)计算关键短语的权重;

7)选择覆盖最大权重关键短语的最小独立问题集合产生问卷,具体方法为:一个独立的问题集是一组没有两个节点相邻的问题,其涵盖的主题o的关键短语的权重之和被定义如下,a(q,k)表示问题q包含关键短语k:

wo(S)=∑q∈S,a(q,k)wo(k)

S是覆盖最大权重关键短语的最小独立问题集合,当且仅当(1)S是独立的问题集合;(2)不存在独立的集合S'使得Wo(S')>Wo(S);(3)不存在独立的集合S',其中Wo(S')=Wo(S),而|S'|>|S|。

2.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤1)中,所述使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语的具体方法为:删除问题的句型,剩下的部分用POS-tagger得到名词性短语,即该问题的关键短语,删除问题的句型,对于满足几个句型的问题,删除最长的句型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学;厦门大学深圳研究院,未经厦门大学;厦门大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710980059.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top