[发明专利]一种基于动态主题模型的软件演化建模方法有效
申请号: | 201410355483.7 | 申请日: | 2014-07-24 |
公开(公告)号: | CN104090775B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 孙小兵;胡嘉俊 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F17/30 |
代理公司: | 南京苏科专利代理有限责任公司32102 | 代理人: | 董旭东 |
地址: | 225009 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了软件工程领域内的一种基于动态主题模型的软件演化建模方法,包括预处理、建立时间序列文档、建立向量空间模型文档、动态主题建模、转化“文档‑主题”矩阵、转化“主题‑单词”矩阵以上各步骤,帮助开发人员和项目管理者理解项目开发过程中各个时间段内的开发侧重点以及整个时间周期内的开发特征的演化过程,缩短开发人员的开发维护时间,提高软件的开发效率,可用于软件的开发维护中。 | ||
搜索关键词: | 一种 基于 动态 主题 模型 软件 演化 建模 方法 | ||
【主权项】:
一种基于动态主题模型的软件演化建模方法,其特征在于,包括如下步骤:步骤1)预处理:对CVS数据库中的提交消息进行托肯化,去停用词,词干化三步操作,生成预处理后的消息文档,并分别建立时间序列文档和向量空间模型文档;步骤2‑1)建立时间序列文档:对预处理后的消息文档按时间间隔T进行划分,生成时间序列文档;步骤2‑2)建立向量空间模型文档:将预处理后的文档转化为向量空间模型文档,先将消息文档中出现的所有单词利用数字标号为其建立索引,且不允许重复,再将每一篇消息文档使用时间为其建立索引,最后将消息文档按篇逐行进行排列,每行消息文档按照unique_word_count index1:count1 index2:count2 … indexn:countn格式进行表征,其中unique_word_count代表该行消息文档中不重复单词的个数,index:count是一个键值对,代表在该行消息文档中第index个单词有count个;步骤3)动态主题建模:设置主题数目K,将时间序列文档和向量空间模型文档作为动态主题模型的输入文档,使用动态主题模型对其建模,并将动态主题模型的输出分别转化为“文档‑主题”矩阵和“主题‑单词”矩阵;步骤4‑1)转化“文档‑主题”矩阵:将动态主题模型的输出首先转化为一个“文档‑主题”矩阵,并使用公式计算出第k个主题在第j个时间段的标准化分配权值,标准化分配权值用来表征相应软件的主题在该时间段内的分配权重,公式中|Tj|表示第j个时间段内的消息文档总数,dij表示第j个时间段内的第i篇消息文档,dij[k]表示这篇消息文档中有关主题k的概率;步骤4‑2) 转化“主题‑单词”矩阵:将动态主题模型的输出其次转化为K个T*N的“主题‑单词”矩阵,T代表时间段,N代表不重复单词,并将每个矩阵的每一行按词频从大到小进行排序,并输出排在前10个的单词,在输出的“主题‑单词”矩阵中选择某个单词W,生成词频随时间变化的折线图。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410355483.7/,转载请声明来源钻瓜专利网。