[发明专利]基于机器学习的调查问卷自动生成方法有效
申请号: | 201710980059.5 | 申请日: | 2017-10-19 |
公开(公告)号: | CN107644015B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 林琛;杨颖;林灵婷 | 申请(专利权)人: | 厦门大学;厦门大学深圳研究院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 调查 问卷 自动 生成 方法 | ||
基于机器学习的调查问卷自动生成方法,涉及机器学习。使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;输入话题,得到话题与关键短语的关系图,得覆盖所述关系图的种子问题集;对种子问题集进行语义聚类构建语义上相似的问题集合;对问题集合进行极性匹配;删除不合适的问题;计算关键短语的权重;选择覆盖最大权重关键短语的最小独立问题集合产生问卷。所述方法生成的调查问卷,其中的问题简单,清晰,具体,公正,易于理解。
技术领域
本发明涉及机器学习,尤其是涉及基于机器学习的调查问卷自动生成方法。
背景技术
民意调查在现代社会并不罕见。第一个为人所知的民意调查例子是在大约200年前组织的,它成功地预测了1824年美国总统选举的结果。从那时起,组织民意调查以衡量公众意见和证明经验成为一个惯例,从电子游戏的市场表现到总统工作的支持率,民意调查涵盖了广泛的主题。调查结果为新闻事件中的每个人提供有价值的信息和其他感兴趣的话题,并促进政策和其他决定的制定。
民意调查会向从目标人群中抽取出来的选民发出一系列的问题,目的是基于样本选民的答案推断一般性。因此,调查问卷的设计至关重要。按照惯例,调查问卷是由具有专业知识的专业人士创建的。几乎每个国家都有民意调查机构来组织选举。较多的电视网络也会定期进行民意调查。但是,在未知的话题上,民意调查并不总能可靠地预测公众的意见。例如,2016年唐纳德·特朗普的当选标志着调查预测最大的失败。
最近,在线社交媒体网站已成为在线用户发布和交流思想和观点的占主导地位的平台,吸引了研究人员来研究公众意见,尤其是在线辩论论坛为公众意见的挖掘提供了有价值的信息。
从民意调查的角度来看,辩论论坛是一个问题的集合,那么给定任意的话题,是否有可能从在线辩论论坛自动产生调查问卷?但是,调查问卷中问题的选择并不简单。在调查问卷中有一些撰写问题的准则,例如,民意调查应该提出“足够的问题,以便涵盖议题的所有方面”。每个问题的措词应该仔细组织,以使被访者的真实感受得到揭示。尽可能保持调查问卷的简短也是一个黄金准则。然而,目前还没有已知的计算解决方案。
发明内容
本发明的目的是针对现有的上述技术所存在的问题,提供基于机器学习的调查问卷自动生成方法。
本发明包括以下步骤:
1)使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;
2)输入话题,得到话题与关键短语的关系图,得覆盖所述关系图的种子问题集;
3)对种子问题集进行语义聚类构建语义上相似的问题集合;
4)对问题集合进行极性匹配;
5)删除不合适的问题;
6)计算关键短语的权重;
7)选择覆盖最大权重关键短语的最小独立问题集合产生问卷。
在步骤1)中,所述使用序列模式挖掘算法(Prefixspan)找出问题中常见的句型,删除问题的句型,剩下的部分用POS-tagger得到名词性短语,即该问题的关键短语,删除问题的句型对于满足几个句型的问题,删除最长的句型;
在步骤2)中,所述输入话题,根据给定话题得到相关关键短语,若问题主体或用户对问题的评论中包含关键短语,则将该问题加入种子问题集。
在步骤3)中,所述对种子问题集进行语义聚类构建语义上相似的问题集合,使用近邻传播算法(AP)进行语义聚类,算法中节点间传递的消息为两类:吸引度(R={r(i,j)})和归属度(A={a(i,j)}),两个信息的更新过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学;厦门大学深圳研究院,未经厦门大学;厦门大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710980059.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:低功耗的多模定位标签
- 下一篇:功率控制方法及装置