基础设施-苏州天剑计算机系统有限公司

VCSA 7.0 U3G 加域报错 Error: ERROR_GEN_FAILURE [code 0x0000001f]

我司用户在VCSA部署后，为更方便的管理，希望将VCSA加入公司现有域控，但在加入过程中web界面报错，命令行也出现报错提示Error: ERROR_GEN_FAILURE [code 0x0000001f]。苏州天剑服务工程师在接收到用户反馈后，第一时间远程接入协助处置，经初步检查，DNS、FQDN等配置均正确，起初怀疑smb版本的问题，经过kb的操作步骤执行后，仍无法顺利接入域环境。经与我司微软技术工程师内部沟通研讨后，提出终端时间与DC时间差异过大，也会导致入域失败。确认好思路后，开始…

基础设施 2024年9月26日

DELL R750 PERC H755 Front 阵列卡固件BUG导致本地存储故障处置

一、故障描述用户VMware ESXi 7.0u3c在使用过程中，本地存储中的虚拟机突然无法访问，用户在检查本地存储卷显示为不可访问状态。通过iDrac检查阵列卡状态，无法正确识别物理盘及RAID卷组。二、故障定位以苏州天剑技术服务工程师的经验判断，可能是RAID卡的固件缺陷导致的问题，所以第一时间远程接入后即检查了RAID卡固件版本为52.21.0-4606，与DELL原厂核实后，当前RAID卡固件版本确实存在需要紧急升级的版本。详细的描述可见：https://www.dell.co…

基础设施 2024年9月21日

Nutanix Node is removed from metadata store 节点离线故障处置

在数字化时代，企业的IT基础设施扮演着至关重要的角色，而Nutanix超融合系统更是被众多企业认可为提升效能的利器。然而，即便是最先进的技术也难免会遭遇各种技术故障，而这则故事正是发生在这个充满挑战的背景下。今天我们400服务电话接到了一通陌生的报障电话，这位用户他们的Nutanix超融合1个节点离线，给业务的正常运行造成了一定的影响。秉承着业务至上的原则，我们的技术服务团队在未进行任何商务沟通的情况下迅速远程接入生产环境进行检查。通过对集群的基本检查发现，其中一个节点为“Node is r…

基础设施 2023年12月4日

DELL R730xd 面板指示灯全亮黄色告警无法开机故障处置

苏州天剑服务工程师帮客户在IDC上架服务器发现其中一台DELL R730xd服务器面板指示灯全亮黄色，点开机键无反应。苏州天剑服务工程师尝试对服务器进行放电后故障依旧。 1、检查一下连线是否都正常，电源是否OK，重新插拔一下。 2、内存重新插拔一下 3、主板放电操作一下：移除电源适配器和电池，按住电源按钮10秒钟后释放电源开关，再次连接电源适配器。多次尝试无果后，使用最小化环境（一颗CPU，一条内存）启动服务器仍无法启动。在苏州天剑服务工程师二线团队的建议下，尝试重新拔插了指示灯面板的控制排…

基础设施 2023年10月12日

Nutanix CVM inode 写满造成集群崩溃的故障处置

苏州天剑服务工程师在国庆值班中收到用户紧急报障，生产环境中使用的3节点Nutanix集群，分布式存储服务崩溃，在ESXI中所有虚拟机显示为失效状态，存储里面查看Nutanix存储空间也显示为0B，所有虚拟机业务中断，苏州天剑服务工程在收到该用户反馈后，第一时间远程接入用户环境进行处置。 1、环境检查该套Nutanix超融合AOS版本为6.5 LTS与VMware融合部署，在ESXI检查各个节点上的CVM虚拟机运行正常，但是PRISM后台9440端口无法访问，通过web console进入cvm…

基础设施 2023年10月2日

VMware Horizon View 7链接克隆池迁移新存储

大多数使用VMware Horizon View链接克隆部署的客户，在将现有桌面迁移到新存储上时都会遇到难题。由于部署链接克隆VM的方式（链接克隆虚拟机是与父虚拟机共享虚拟磁盘的虚拟机的副本），无法通过vMotion存储的操作进行存储迁移。 VMware Horizon View Composer有一个名为“重新平衡”的选项，该选项可用于将桌面迁移到新的存储或在多个数据存储之间进行平衡。以下简单步骤说明了桌面迁移。在我们的示例中，我们从一个FlashArray存储移动到另一个FlashArra…

基础设施 2022年12月1日

VCSA 7.0u3c日志analytics-runtime.log.stderr体积过大处置方法

在对某客户VCSA进行巡检时发现日志存储分区磁盘空间已经占满，在进一步的检查中发现analytics-runtime.log.stderr日志体积已经超过6GB，为留足充分观察与判断故障的时间，临时为日志分区进行了5GB的磁盘空间扩容，经过3天的观察，日志体积超过7GB，平均一天超过300MB的增长速度。经过我们工程师的专业处置，先已成功降低该日志文件体积，实现日志轮转，方法如下：新建文件vmware-analytics.lr：保存以下内容至文件：按esc退出编辑模式，然后输入:wq保存…

基础设施 2022年5月13日

vCenter 7.0u3c 使用关闭 vSAN 群集向导功能导致集群故障一则

故障描述在客户现场我们使用7.0u3c的新功能，vSAN 集群关闭向导，对vSAN群集进行停机维护。该集群由四个 Dell R940xa 节点组成，vCenter 位于非 vSAN 节点上。关机是通过各项预检查，在拔掉电源之前vSAN主机已正确关闭。在重新启动vSAN集群后，所有 vSAN 虚拟机都被列为不可访问，并且如果在数据存储中浏览（通过 GUI 或命令行）是不可见的，但是vSAN的容量是正常的。重启集群的按钮不存在，所以我们工程师按照kb通过命令行手动重启集群。然而，恢复脚本超时： …

基础设施 2022年4月6日

无法初始化 vGPU“nvidia_a16-1b”的插件“libnvidia-vgx.so”

我们一位用户在对自家VDI桌面的GPU卡进行升级后，发现无法启动带有vGPU的虚拟机，报错如下：于是用户与我们的工程师联系排查问题，我们的虚拟化工程师第一反应会不会是GPU卡驱动没有安装好，经过排查确认驱动正常，可以使用nvidia-smi命令：接着我们的虚拟化工程师怀疑是不是GPU卡的ECC没关闭导致的异常，经查用户使用的是nVidia A16 GPU卡，在对A16的参数进行查询确认后，发现是支持vGPU模式下开启ECC功能。具体关于ECC的描述可以参考官方文档： https://doc…

基础设施 2022年3月3日

ESXi7.0利用iDRACTools不重启服务器重置iDRAC密码

对于很多托管在机房或者依赖远程运维的工程师来说，iDRAC是必不可少的管理工具，我们的工程师今天帮助客户运维的时候遇到一个很尴尬的问题，用户密码本中记录的一台服务器iDRAC密码登录不上，现场也没有值班的工程师可以现场协助重置密码，问题又很急着解决，经过我们工程师的努力成果在远程的环境下重置掉了iDRAC密码成功进入iDRAC进行运维工作。用户服务器是一台DELL PowerEdge R740服务器，操作系统为VMware vSphere ESXi 7.0U3C，在以往的运维经验中，我们曾经在…

基础设施 2022年3月1日

基础设施