发布
登录
注册
线上服务 CPU 100%?一键定位 so easy
众说纷纭频道

图灵联邦

恒河沙
关注

图灵联邦

0

评论

0

点赞

0、背景

经常做后端服务开发的同学,或多或少都遇到过 CPU 负载特别高的问题。尤其是在周末或大半夜,突然群里有人反馈线上机器负载特别高,不熟悉定位流程和思路的同学可能登上服务器一通手忙脚乱,定位过程百转千回。

对此,也有不少同学曾经整理过相关流程或方法论,类似把大象放进冰箱要几步,传统的方案一般是4步:

但是对于线上问题定位来说,分秒必争,上面的 4 步还是太繁琐耗时了,有没有可能封装成为一个工具,在有问题的时候一键定位,秒级找到有问题的代码行呢?

当然可以!工具链的成熟与否不仅体现了一个开发者的运维能力,也体现了开发者的效率意识。淘宝的oldratlee 同学就将上面的流程封装为了一个工具:show-busy-java-threads.sh(参考文末链接下载),可以很方便的定位线上的这类问题,下面我会举两个例子来看实际的效果。

快速安装使用:

1、java 正则表达式回溯造成 CPU 100%

编译、运行上述代码之后,咱们就能观察到服务器多了一个 100% CPU 的 java 进程:

怎么使用呢?

示例:

可以看到,一键直接定位异常代码行,是不是很方便?

2、线程死锁,程序 hang 住

执行之后的效果:

如何用工具定位:

一键定位:可以清晰的看到线程互相锁住了对方等待的资源,导致死锁,直接定位到代码行和具体原因。

通过上面两个例子,我想各位同学应该对这个工具和工具能解决什么问题有了比较深刻的了解了,遇到 CPU 100% 问题可以从此不再慌乱。但是更多的还是依赖大家自己去实践,毕竟实践出真知嘛~

3、免费实用的脚本工具大礼包

除了正文提到的 show-busy-java-threads.sh,oldratlee 同学还整合和不少常见的开发、运维过程中涉及到的脚本工具,觉得特别有用的我简单列下:

(1)show-duplicate-java-classes

偶尔会遇到本地开发、测试都正常,上线后却莫名其妙的 class 异常,历经千辛万苦找到的原因竟然是 Jar冲突!这个工具就可以找出Java Lib(Java库,即Jar文件)或Class目录(类目录)中的重复类。

Java开发的一个麻烦的问题是Jar冲突(即多个版本的Jar),或者说重复类。会出NoSuchMethod等的问题,还不见得当时出问题。找出有重复类的Jar,可以防患未然。

例如:

(2)find-in-jars

在当前目录下所有jar文件里,查找类或资源文件。

用法:注意,后面Pattern是grep的 扩展正则表达式。

示例:

(3)housemd pid [java_home]

很早的时候,我们使用BTrace排查问题,在感叹BTrace的强大之余,也曾好几次将线上系统折腾挂掉。2012年淘宝的聚石写了HouseMD,将常用的几个Btrace脚本整合在一起形成一个独立风格的应用,其核心代码用的是Scala,HouseMD是基于字节码技术的诊断工具, 因此除了Java以外, 任何最终以字节码形式运行于JVM之上的语言, HouseMD都支持对它们进行诊断, 如Clojure(感谢@Killme2008提供了它的使用入门), scala, Groovy, JRuby, Jython, kotlin等.

使用housemd对java程序进行运行时跟踪,支持的操作有:

查看加载类

跟踪方法

查看环境变量

查看对象属性值

详细信息请参考: https://github.com/CSUG/HouseMD/wiki/UserGuideCN

(4)jvm pid

执行jvm debug工具,包含对java栈、堆、线程、gc等状态的查看,支持的功能有:

========线程相关=======

1 : 查看占用cpu最高的线程情况

2 : 打印所有线程

3 : 打印线程数

4 : 按线程状态统计线程数

========GC相关=======

5 : 垃圾收集统计(包含原因)可以指定间隔时间及执行次数,默认1秒, 10次

6 : 显示堆中各代的空间可以指定间隔时间及执行次数,默认1秒,5次

7 : 垃圾收集统计。可以指定间隔时间及执行次数,默认1秒, 10次

8 : 打印perm区内存情况会使程序暂停响应

9 : 查看directbuffer情况

========堆对象相关=======

10 : dump heap到文件会使程序暂停响应默认保存到pwd/dump.bin,可指定其它路径

11 : 触发full gc。会使程序暂停响应

12 : 打印jvm heap统计会使程序暂停响应

13 : 打印jvm heap中top20的对象。会使程序暂停响应参数:1:按实例数量排序,2:按内存占用排序,默认为1

14 : 触发full gc后打印jvm heap中top20的对象。会使程序暂停响应参数:1:按实例数量排序,2:按内存占用排序,默认为1

15 : 输出所有类装载器在perm里产生的对象。可以指定间隔时间及执行次数

========其它=======

16 : 打印finalzer队列情况

17 : 显示classloader统计

18 : 显示jit编译统计

19 : 死锁检测

20 : 等待X秒,默认为1

q : exit

进入jvm工具后可以输入序号执行对应命令

可以一次执行多个命令,用分号";"分隔,如:1;3;4;5;6

每个命令可以带参数,用冒号":"分隔,同一命令的参数之间用逗号分隔,如:

Enter command queue:1;5:1000,100;10:/data1/output.bin

(5)greys <PID>[@IP:PORT]

PS:目前Greys仅支持Linux/Unix/Mac上的Java6+,Windows暂时无法支持

Greys是一个JVM进程执行过程中的异常诊断工具,可以在不中断程序执行的情况下轻松完成问题排查工作。和HouseMD一样,Greys-Anatomy取名同名美剧“实习医生格蕾”,目的是向前辈致敬。代码编写的时候参考了BTrace和HouseMD两个前辈的思路。

使用greys对java程序进行运行时跟踪(不传参数,需要先greys -C pid,再greys)。支持的操作有:

查看加载类,方法信息

查看JVM当前基础信息

方法执行监控(调用量,失败率,响应时间等)

方法执行数据观测、记录与回放(参数,返回结果,异常信息等)

方法调用追踪渲染

详细信息请参考: https://github.com/oldmanpushcart/greys-anatomy/wiki

(6)sjk <cmd> <arguments> sjk --commands sjk --help <cmd>

使用sjk对Java诊断、性能排查、优化工具

ttop:监控指定jvm进程的各个线程的cpu使用情况

jps: 强化版

hh: jmap -histo强化版

gc: 实时报告垃圾回收信息

更多信息请参考: https://github.com/aragozin/jvm-tools

Refer:

[1] oldratlee/useful-scripts

https://github.com/oldratlee/useful-scripts

[2] awesome-scripts

https://github.com/superhj1987/awesome-scripts

[3] JDK自带工具之问题排查场景示例

http://bit.ly/2xtukcb

[4] Java调优经验谈

http://bit.ly/2xCIj2L

[5] jvm排查工具箱jvm-tools

https://segmentfault.com/a/1190000012658814

[6] alibaba/arthas

https://github.com/alibaba/arthas/blob/7f236219ddbd040764dd821cbcbd44899dd57c90/README.md

本文内容来源于用户投稿,如有侵权请联系官方删除

发布

评论 0