阿里云服务器突然终止服务且重启失败的解决方法

作者阿里云代理 文章分类 分类:新闻快递 阅读次数 已被围观 501

本文将为您介绍服务器突然终止服务且重启失败的原因和解决方法。

问题描述

服务器使用了一段时间,突然终止服务,重启无效果或重启失败。

问题原因和解决方法

出现该问题的原因及相应的解决方法如下:

•不同账户启动过Agent,导致目录权限不一致。

确认方法如下:

    i.登录ECS,切换至root账号。

    ii.执行命令ps -ef | grep zoo | grep -v cdp

如果返回两个进程,则说明是该原因导致,解决方法如下:

    i.登录ECS,对上述ps出的两个进程执行kill -9。

    ii.执行命令chown admin:admin /home/admin/ -R

    iii.执行命令/home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart,重启Agent。

句柄数被过多占用。

确认方法如下:

▫登录ECS,执行命令grep "temporarily unavailable" /home/admin/alisatasknode/logs/alisatasknode.log。如果有结果返回,则说明有问题。

▫重启Agent失败,报错为Caused by: java.io.IOException: error=11, Resource temporarily unavailable

如果确认是该原因导致的问题,请根据下述方法解决:

    i.切换至root账号下,执行命令ps -ef | grep zoo | grep -v cdp

    ii.对上述ps出的进程全部执行kill -9命令。

    iii.执行命令chown admin:admin /home/admin/ -R

    iv.执行命令/home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart,重启Agent。

•专有网络的ECS的UUID发生变化。

    i.登录ECS,执行命令dmidecode | grep UUID,确认返回的UUID是否全部为小写字母(假设原来是大写)。

    ii.将返回的结果和资源组列表 > 自定义资源组页面服务器管理对话框中的结果进行对比。

如果确认是该原因导致的问题,请在自定义资源组页面删除原来大写UUID的服务器,重新添加小写UUID的服务器。

说明 如果出现服务器无法删除,报错remove node failed, exception: [3006:ERROR_GATEWAY_EXIST_TASKS]:gateway tasks not empty的情况,请记录服务器所在区域,并复制报错内容,提交工单进行咨询。

阿里云服务器  阿里云代理商 

本公司销售:阿里云、腾讯云、百度云、天翼云、金山大米云、金山企业云盘!可签订合同,开具发票。