说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210393040.1 (22)申请日 2022.04.15 (71)申请人 天津大学 地址 300071 天津市南 开区卫津路9 2号 (72)发明人 冯志勇 蒋逸文  (74)专利代理 机构 天津盛理知识产权代理有限 公司 12209 专利代理师 王利文 (51)Int.Cl. G06F 8/54(2018.01) G06F 8/41(2018.01) G06F 16/951(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于用户评论和开 发者智慧的App 源代 码链接方法 (57)摘要 本发明涉及一种基于用户评论和开发者智 慧的App源代码链接方法, 使用自然语言处理等 相关技术, 将划分版本后的用户评论和开发者群 体智慧进行联系。 采用基于BERT模型的意图分类 和价值评论提取相结合的方法来识别重要用户 反馈, 通过引入GitHub中的Issue和Commit相关 信息来缩小用户评论和源代码之间的语义差距, 从而达到比现有方法更好的链接效果。 本发明能 够快速准确的为开发者提供有 价值的用户反馈, 并给出存在潜在修改可能的源代码集合, 为App 的持续发布提供指导性意见, 提高开发者维护 App的效率。 为了了解该工具在实际使用过程中 对开发者的帮助程度, 该工具还设置了收集开发 者反馈信息的功能, 以便 之后能更好地优化本发 明的方法, 不断提升效果。 权利要求书2页 说明书6页 附图3页 CN 114741088 A 2022.07.12 CN 114741088 A 1.一种基于用户评论和开发者智慧的App源代码链接方法, 其特征在于: 包括以下步 骤: 步骤1、 爬取 数据信息, 并对数据信息进行 预处理; 步骤2、 使用BERT模型对步骤1中预处 理后的数据进行意图分类; 步骤3、 对步骤2预处 理后数据中上个版本意图分类后的数据提取价 值评论; 步骤4、 使用LDA对步骤3中的价值评论和步骤2预处理后数据中当前版本意图分类后的 数据聚类主题; 步骤5、 使用Issue数据中的文本对步骤4 中的聚类主题进行语义丰富, 使用Commit数据 中的文本对 源代码组件进行语义丰富; 步骤6、 通过相似度计算, 计算步骤5中语义丰富后的聚类主题和源代码组件之间的相 似度, 并通过潜在的源代码推荐算法进行源代码的链接 。 2.根据权利要求1所述的一种基于用户评论和开发者智慧 的App源代码链接方法, 其特 征在于: 所述步骤1中爬取数据信息包括: 从Fdroid开源平台中爬取App的数据信息; 从 Google Play中爬取用户评论信息; 从GitHub中爬取Issue数据和Commit数据, 并将爬取到 的数据信息存 入到数据库中。 3.根据权利要求2所述的一种基于用户评论和开发者智慧 的App源代码链接方法, 其特 征在于: 所述从Fdroid开源平台中爬取App的数据信息包括APP的概括描述、 App的详细描 述、 App的GitHub地址和Ap p的所属类别; 从Google Play中爬取用户评论信息包括评论所属APP、 评论的点赞数、 评论对APP的打 分、 评论的时间、 评论的用户和评论的内容; 从GitHub中爬取的Issue数据包括Issue的GitHub地址、 Issue的标题、 Issue的状态、 Issue的评论内容和Is sue的记录时间; 从GitHub中爬取的Commit数据包括Commit的GitHub地址、 Commit的提交说明、 Commit 的描述、 Com mit的提交者和Com mit的记录时间。 4.根据权利要求1所述的一种基于用户评论和开发者智慧 的App源代码链接方法, 其特 征在于: 所述步骤1 中预处理的具体实现方法为: 通过NLT K技术的非英文过滤、 去停用词、 词 性标注、 单词纠正、 词形还原和短文本移除对爬取的数据信息进行 预处理。 5.根据权利要求1所述的一种基于用户评论和开发者智慧 的App源代码链接方法, 其特 征在于: 所述步骤2的的具体实现方法为: 对步骤1预处理后的数据中的用户评论加上一个 CLS标记符和SEP标记符, 经过Embedding过程后得到预训练语 言模型BERT的输入, 调用预训 练语言模型BERT, 选取其输出中的CLS处特征向量, 在预训练语 言模型BERT前馈神经网络和 softmax函数构成的分类层中进 行分类, 并返回用户评论所属各个类别的概率情况, 选取概 率值最大的选项作为其意图分类的结果, 所述意图分类包括新功能请求、 问题发现、 信息提 示、 信息帮助和其 他。 6.根据权利要求1所述的一种基于用户评论和开发者智慧 的App源代码链接方法, 其特 征在于: 所述步骤3的具体实现方法为: 使用Sentence ‑BERT模型将步骤2预处理后数据中上 个版本分类后的用户评论和Issue数据中的文本句向量化, 然后通过余弦相似度来计算两 者的相似度情况, 提取价值评论; 随着用户评论和Issu e数据中的文本相似度阈值的逐步升 高, 与Issu e数据中的文本产生链接对的用户评论数量逐步减少, 同时价值词的数量逐步减权 利 要 求 书 1/2 页 2 CN 114741088 A 2少; 在计算过程中比对不同相似度阈值下 的单位价值词减少而变化的用户评论数量, 动态 选择最优的相似度阈值。 7.根据权利要求1所述的一种基于用户评论和开发者智慧 的App源代码链接方法, 其特 征在于: 所述步骤4的具体实现方法为: 使用LDA对步骤3中的价值评论和步骤2预处理后数 据中当前版本意图分类后的数据聚类主题, 并结合PyLDAvis可视化和主题相关性指标来选 择LDA的最优聚类主题数。 8.根据权利要求1所述的一种基于用户评论和开发者智慧 的App源代码链接方法, 其特 征在于: 所述 步骤5的具体实现方法为: 使用Issue数据中的文本对用户评论聚类主题进行语义丰富: 使用非对称骰子系数计 算用户评论聚类主题与Is sue数据中的文本之间的相似度: 其中, 为用户评论聚类主题a中包含的单词集合, 为Issue文本b中包含的 单词集合, min函数的作用是对比两个单词集 合中的单词数, 设定相似度阈值, 将相似度结果大于相似度阈值的链接视为有效链接, 将各个有效链 接中的两 部分数据组合在一 起成为丰富后的用户反馈信息; 使用Commit数据中的文本对源代码组件进行语义丰富: 将与源代码有关联的Commit信 息进行提取, 并对源代码进行抽象语法树解析, 将两者组合在一起即为丰富后的源代码组 件, 其中抽象语法树 解析提取提取包名、 类名、 方法名、 变量名以及注释。 9.根据权利要求1所述的一种基于用户评论和开发者智慧 的App源代码链接方法, 其特 征在于: 所述步骤6的具体实现方法为: 使用加权的非对称骰子系数来计算语义丰富后的聚 类主题和源代码组件之间的相似度: 其中, RFi为语义丰富后的用户评论聚类主题, RCj为语义丰富后的源代码组件, k为同时 出现在RFi和RCj中的单词, df表示单词频率, 为RFi中包含的单词 集合, 为RCj中包 含的单词集合, min函数的作用是对比两个单词集合中的单词数, 完成相似度计算后通过潜 在的源代码推荐算法实现源代码的链接 。权 利 要 求 书 2/2 页 3 CN 114741088 A 3

.PDF文档 专利 一种基于用户评论和开发者智慧的App源代码链接方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于用户评论和开发者智慧的App源代码链接方法 第 1 页 专利 一种基于用户评论和开发者智慧的App源代码链接方法 第 2 页 专利 一种基于用户评论和开发者智慧的App源代码链接方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。