ganglia导致的centos异常记录

问题发现

查看ganglia的监控界面,出现所有的的图片都缺失,无法监控到每个机器的性能。

在使用tab键自动补全的时候出现了-bash: 无法为立即文档创建临时文件: 设备上没有空间的问题

使用df -i查看inode的使用情况,发现 /dev/mapper/centos-root的系统盘的inode已经使用100%。

到系统盘查看ganglia的目录大小,占用43G,系统盘总共为50G。

因此可以确认时ganglia的数据目录占满了系统盘。

问题解决过程

将该ganglia的数据目录移动到其它盘去,修改gmetad的配置文件中的数据目录地址,然后重启一下gmetad.service,其启动不成功,报权限问题

将文件权限修改问777,用户组修改为ganglia。重启还是报报此问题,selinux也没有报错

查看ganglia的上级目录的权限是否跟之前的上级目录(/var)一致


两个目录的权限不一致,说明gmetad无法读取该文件夹下的数据,由于wodehp是用户目录,不宜修改其权限,将ganglia的目录移至/home目录下,然后重启即可

解决ganglia的启动的问题之后,发现ganglia的页面仍然打不开。查看http的日志,最后一次问题是Tue Apr 25 12:58:54,离现在已经过去2个小时,说明刚才的网络请求未到达apache。

在移动ganglia数据目录后,对服务器进行了升级重启,导致了apache服务没有跟随系统启动。

因此启动httpd即可。
没有数据:查看selinux

近一步查看详细信息

按照selinux的提示

1
ausearch -c 'httpd' --raw | audit2allow -M my-httpd

直接新建该文件,然后再执行

1
2
ausearch -c 'httpd' --raw | audit2allow -M my-httpd
semodule -i my-httpd.pp

再次刷新页面,又出现以下问题

1
There was an error collecting ganglia data (127.0.0.1:8652): fsockopen error: Connection refused

该问题一般是权限出问题

Restart 后其运行正常,但是页面还是出现图片加载不出来的问题

再次找到selinux的问题进行修改

1
2
ausearch -c 'rrdtool' --raw | audit2allow -M my-rrdtool
semodule -i my-rrdtool.pp

中间在修改权限测试中出现过以下情况:

需将目录的用户名和用户组修改为ganglia

总结

ganglia默认的数据存储目录放置在/var/lib下,监控过程中,每个节点都会产生大量的数据,路径设置不当,就会造成系统盘写满,影响其它功能使用。通过修改ganglia配置,移动数据目录以及权限问题三个方面成功解决ganglia导致的centos使用异常。