[发明专利]基于机器学习的调查问卷自动生成方法有效
申请号: | 201710980059.5 | 申请日: | 2017-10-19 |
公开(公告)号: | CN107644015B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 林琛;杨颖;林灵婷 | 申请(专利权)人: | 厦门大学;厦门大学深圳研究院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 调查 问卷 自动 生成 方法 | ||
1.基于机器学习的调查问卷自动生成方法,其特征在于包括以下步骤:
1)使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;
2)输入话题,得到话题与关键短语的关系图,得到覆盖所述关系图的种子问题集;所述输入话题的具体方法是根据给定话题得到相关关键短语,若问题主体或用户对问题的评论中包含关键短语,则将该问题加入种子问题集;
3)对种子问题集进行语义聚类构建语义上相似的问题集合,具体方法为:
使用近邻传播算法进行语义聚类,算法中节点间传递的消息为两类:吸引度R={r(i,j)}和归属度A={a(i,j)},两个信息的更新过程如下:
其中,相似度函数s(i,j)定义如下,使用SF(q)={k,k∈Tq}表示问题q中的关键短语:
构成一个基于双层主题敏感问题图的框架;第一层是问题图,表示问题之间的等价性,根据聚类的结果,将同一类中的问题两两连接;第二层由与给定主题相关的关键短语组成,其中每个节点被分配一个权重;若问题q主体或用户对问题q的评论中包含关键短语k,则将弧a(q,k)添加到双层主题敏感问题图中;
4)对问题集合进行极性匹配,对问题进行极性匹配的原因是,可能问题q1的赞同观点与问题q2的反对观点相同,即极性相反的情况;将问题视为二元分类任务,给定两个问题q,q',训练分类器使得若Pq与Pq'匹配,则输出为正,即极性相同;若Pq与Nq'匹配,则输出为负,即极性相反;使用4个领域的特征:文本、投票情况、人口统计学和情感倾向,从每个领域得出两个特征,分别表示输出为正和负的可能性;
5)删除不合适的问题;
6)计算关键短语的权重;
7)选择覆盖最大权重关键短语的最小独立问题集合产生问卷,具体方法为:一个独立的问题集是一组没有两个节点相邻的问题,其涵盖的主题o的关键短语的权重之和被定义如下,a(q,k)表示问题q包含关键短语k:
wo(S)=∑q∈S,a(q,k)wo(k)
S是覆盖最大权重关键短语的最小独立问题集合,当且仅当(1)S是独立的问题集合;(2)不存在独立的集合S'使得Wo(S')>Wo(S);(3)不存在独立的集合S',其中Wo(S')=Wo(S),而|S'|>|S|。
2.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤1)中,所述使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语的具体方法为:删除问题的句型,剩下的部分用POS-tagger得到名词性短语,即该问题的关键短语,删除问题的句型,对于满足几个句型的问题,删除最长的句型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学;厦门大学深圳研究院,未经厦门大学;厦门大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710980059.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:低功耗的多模定位标签
- 下一篇:功率控制方法及装置