当前位置:大数据数据治理 → 正文

linkedin开源dr. elephant -凯发k8国际首页登录

责任编辑:editor004 作者:侠天 |来源:企业网d1net  2016-04-18 12:15:13 本文摘自:infoq

今天linkedin宣布开源dr. elephant,dr. elephant能够很好的帮助用户理解、分析和优化hadoop和spark的工作流。linkedin在去年第八届hadoop summit上第一次在社区呈现。

动机

hadoop是一个分布式数据存储和大数据处理框架,体量大、组件复杂,因而每个组件的性能优化就显得异常重要。在优化底层硬件资源,网络架构,os和其它堆栈的同时,也需要对集群上运行的任务进行优化。

什么是dr. elephant?

dr. elephant是一个hadoop 和spark的性能监控和调优工具。dr. elephant能自动化收集所有指标,进行数据分析,并以简单易用的方式进行呈现。dr. elephant的目标是提高开发人员的开发效率和增加集群任务调试的高效性。dr. elephant支持对hadoop和spark任务进行可插拔式、配置化以及基于规则的启发式job性能分析,并且根据分析结果给出合适的建议来指导如何调优使任务更有效率。

为什么选择dr. elephant?

其它开源或者商用hadoop优化工具都是收集系统资源指标和监控集群资源信息,关注点仅在于简化hadoop集群的发布和管理,而很少有工具是来帮助hadoop优化任务流。这些工具不支持hadoop集群的规模化和hadoop框架的增长,而dr. elephant支持hadoop生态的各种框架,并且很容易的扩展到新的框架,已经支持spark。dr. elephant让用户更清晰的掌握hadoop和spark原理,并帮助其轻松的优化任务。

dr. elephant如何工作?

dr. elephant从yarn resource manager周期性获取所有最近运行成功和失败的应用列表,然后从job history server中攫取每个应用的元数据,包括job counters、任务配置和任务数据。有了元数据后,dr. elephant进行启发式分析,并生成每个任务的诊断报告,从而进行相应的整体优化。dr. elephant将会标记出五个等级问题严重性,指出潜在的性能问题。

  图1 dr. elephant问题等级

  图2 dr. elephant的面板

通过dr. elephant的ui查看数据面板,见图2,这里显示集群的相关统计信息,包括集群上运行的任务数,需要优化的任务数,以及基于启发式分析发现的严重任务数。图中是最近24小时的dr. elephant分析的所有最近的任务。

  图3 dr. elephant的搜索页

dr. elephant提供一个搜索功能,帮助用户通过任务id/应用id,执行id,任务类型,任务严重程度和任务完成时间等来搜索任务。

  图4 dr. elephant任务页面

当你点击指定的搜索结果,会显示完整的任务信息,并能查看相互引用的任务流。

  图5 dr. elephant的工作流历史

  图6 dr. elephant的任务历史

dr. elephant的任务历史和工作流历史可以帮用户比较前后执行的区别。dr. elephant通过启发式计算出每个任务执行的性能得分并作图。这个图表可以帮助用户很直观的分析哪个性能好。

家庭医生

dr. elephant在linkedin非常受欢迎,大家钟爱其简洁性。dr. elephant通过简单的诊断可以解决百分之八十的问题。dr. elephant提供任务级别的建议帮助用户去理解和优化hadoop工作流。

dr. elephant已经完全和hadoop生态整合。在linkedin,开发人员使用dr. elephant作为开发流程的一部分,线上任务强制达到绿色级别。

原文链接:https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark

x linkedin开源dr. elephant 扫一扫
分享本文到朋友圈
凯发k8国际首页登录
当前位置:大数据数据治理 → 正文

责任编辑:editor004 作者:侠天 |来源:企业网d1net  2016-04-18 12:15:13 本文摘自:infoq

今天linkedin宣布开源dr. elephant,dr. elephant能够很好的帮助用户理解、分析和优化hadoop和spark的工作流。linkedin在去年第八届hadoop summit上第一次在社区呈现。

动机

hadoop是一个分布式数据存储和大数据处理框架,体量大、组件复杂,因而每个组件的性能优化就显得异常重要。在优化底层硬件资源,网络架构,os和其它堆栈的同时,也需要对集群上运行的任务进行优化。

什么是dr. elephant?

dr. elephant是一个hadoop 和spark的性能监控和调优工具。dr. elephant能自动化收集所有指标,进行数据分析,并以简单易用的方式进行呈现。dr. elephant的目标是提高开发人员的开发效率和增加集群任务调试的高效性。dr. elephant支持对hadoop和spark任务进行可插拔式、配置化以及基于规则的启发式job性能分析,并且根据分析结果给出合适的建议来指导如何调优使任务更有效率。

为什么选择dr. elephant?

其它开源或者商用hadoop优化工具都是收集系统资源指标和监控集群资源信息,关注点仅在于简化hadoop集群的发布和管理,而很少有工具是来帮助hadoop优化任务流。这些工具不支持hadoop集群的规模化和hadoop框架的增长,而dr. elephant支持hadoop生态的各种框架,并且很容易的扩展到新的框架,已经支持spark。dr. elephant让用户更清晰的掌握hadoop和spark原理,并帮助其轻松的优化任务。

dr. elephant如何工作?

dr. elephant从yarn resource manager周期性获取所有最近运行成功和失败的应用列表,然后从job history server中攫取每个应用的元数据,包括job counters、任务配置和任务数据。有了元数据后,dr. elephant进行启发式分析,并生成每个任务的诊断报告,从而进行相应的整体优化。dr. elephant将会标记出五个等级问题严重性,指出潜在的性能问题。

  图1 dr. elephant问题等级

  图2 dr. elephant的面板

通过dr. elephant的ui查看数据面板,见图2,这里显示集群的相关统计信息,包括集群上运行的任务数,需要优化的任务数,以及基于启发式分析发现的严重任务数。图中是最近24小时的dr. elephant分析的所有最近的任务。

  图3 dr. elephant的搜索页

dr. elephant提供一个搜索功能,帮助用户通过任务id/应用id,执行id,任务类型,任务严重程度和任务完成时间等来搜索任务。

  图4 dr. elephant任务页面

当你点击指定的搜索结果,会显示完整的任务信息,并能查看相互引用的任务流。

  图5 dr. elephant的工作流历史

  图6 dr. elephant的任务历史

dr. elephant的任务历史和工作流历史可以帮用户比较前后执行的区别。dr. elephant通过启发式计算出每个任务执行的性能得分并作图。这个图表可以帮助用户很直观的分析哪个性能好。

家庭医生

dr. elephant在linkedin非常受欢迎,大家钟爱其简洁性。dr. elephant通过简单的诊断可以解决百分之八十的问题。dr. elephant提供任务级别的建议帮助用户去理解和优化hadoop工作流。

dr. elephant已经完全和hadoop生态整合。在linkedin,开发人员使用dr. elephant作为开发流程的一部分,线上任务强制达到绿色级别。

原文链接:https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark

回到顶部
"));
"));

关于凯发k8国际首页登录联系凯发k8国际首页登录隐私条款广告服务凯发k8国际首页登录的友情链接投稿中心凯发k8国际首页登录的招贤纳士

企业网凯发k8国际首页登录的版权所有 ©2010-2024

^
网站地图