现象主机出现故障并伴随主机重启,重启后其中一个虚拟机恰好被备份软件开始备份排查过程1.初步检查需求就是以最快速度把这台虚拟机启动起来根据现场人员的描述:主机是故障重启需要处理的虚拟机就这一台给出的线索还是虚拟机带有锁文件2.关键发现根因明确写出根因,不要只写“已恢复”。处理步骤我的思路是这样:先查看
VMware vSphere 故障排查实战系列:Clone 与 OVF 部署失败排查(13)
在vSphere里,新建虚拟机最常见的两条路是Clone和OVF/OVADeploy。两者在界面上都叫“部署”,但故障面不一样:Clone更偏存储与权限,OVF更偏文件、传输与兼容性。这篇我们用运维管理员视角,来走一套可执行的排查路径:先分类型,再进命令,最后看日志。一、先说清术语Clone:从现有
VMware vSphere 故障排查实战系列:vSAN 健康告警解读与处理(14)
这篇从运维管理员视角整理vSANSkylineHealth告警的处理逻辑。重点不是把面板“刷绿”,而是先守住可用性和重建能力,再处理治理项。一、先统一概念为了避免后面误判,先把常见专有名词说清楚:vSAN:VMware的软件定义存储(Software-DefinedStorage)。把多台ESXi主
VMware vSphere 故障排查实战系列:DRS 不均衡调度原理与诊断(12)
我最近在看一篇关于DRS的排查文章,里面有一个点我很认同:很多“DRS不均衡”的现场,不是DRS坏了,而是我们把“看起来不均衡”和“值得迁移”混在了一起。这篇我按自己的实战习惯整理成一版,重点放在三件事:DRS到底按什么逻辑判定要不要迁移什么配置最常导致“看起来不工作”出问题后怎么快速定位,不靠拍脑
【VMware ESXi】ESXi 8.0U3h 集成 Realtek 网卡驱动 Fling 并解决安装后无网卡
最近在一台使用Realtek网卡的机器上安装ESXi8.0U3h,遇到了一个比较典型的问题:原版ISO可以启动安装程序,但安装过程中和安装完成后都无法正常识别网卡。这类问题在家用主板、小主机、软路由硬件上比较常见。ESXi8.x官方镜像默认不一定包含对应Realtek网卡驱动,所以需要把Realte
【DB2 数据库】11 模拟故障排查系列:锁等待与死锁(SQL0911N)实验
一、这篇文章要解决什么问题前面几篇我已经把表空间、日志、实例启动这几条故障线跑通了。这次我继续往并发问题走,专门验证两类很常见的现场:锁等待(一个会话被另一个会话卡住)死锁(两个会话互相等待,DB2自动回滚其中一个)这篇实验我想回答4个问题:Lock-wait在DB2里到底怎么观察db2listap
Windows 11 IoT LTSC 2024 版本与授权激活模式梳理
最近在看Windows11IoTLTSC2024的版本和授权资料时,我发现这里面最容易让人混乱的不是安装系统,而是授权、版本、密钥和激活方式这几件事经常被混在一起说。比如一篇文章里可能同时出现这些名词:VLEAKMSADBAMAKePKEAGVLKslmgrDISM如果一开始没有把它们分层,很容易以
VMware vSphere 数据存储 APD / PDL 事件处理
这篇文章整理vSphere环境中数据存储出现APD和PDL时的判断方法、排查命令和处理流程。这类故障看起来都像“主机访问不到存储”,但处理思路完全不同。APD更偏向临时路径中断,重点是恢复路径和观察I/O是否恢复;PDL则表示设备被明确判定为永久丢失,重点是确认数据是否还能恢复,以及如何安全清理残留
【DB2 数据库】10 模拟故障排查系列:长事务占用日志后的强制回滚与恢复验证实验
一、这篇文章要解决什么问题前面第08篇我已经验证过LOGFULL。这一次,我想继续往下看一层。如果日志不是单纯“打满”,而是被某个长事务一直占着,我应该怎么把它找出来,再把它强制结束掉。这篇实验我重点确认4件事:哪个连接才是真正占住日志的会话db2listapplicationsshowdetail
运维技术
CipherShell v0.1.0 技术复盘:国密 SSH 双引擎、Web 终端与跨平台发布历程
一、这篇文章要解决什么问题这篇不是产品宣传,而是我把CipherShellv0.1.0从“能连上”做成“可发布、可回归、可开源”的完整技术复盘。这次我主要想回答5个问题:我们到底在做什么样的客户端,不是“另一个SSH工具”而已。国密场景里,为什么单引擎方案最终走不通。终端与SFTP为什么会反复出问题
【DB2 数据库】09 模拟故障排查系列:DB2 实例未启动与启动失败排查实验
一、这篇文章要解决什么问题前面的几篇实验,我已经把这条线基本跑顺了:表空间打满ADD/EXTEND/AUTORESIZE容器权限异常容器路径异常LOGFULL但到了真实值班场景里,还有一类更基础、也更高频的问题:实例根本没起来这类问题和前面那些“表空间满”“日志满”不一样。因为前面那些问题通常是:实
运维技术
LVM事故演练_PV掉线_partial激活与恢复
一、实验背景在日常运维里,LVM最有价值的地方不是扩容,而是面对磁盘故障时的可恢复性。如果一个卷组里有多块PV,而某个LV又跨在这些PV上,那么一旦其中一块盘掉线,就会进入一种很典型的事故状态:卷组还能被识别但卷组会提示missingPV逻辑卷会进入partial状态这时系统通常不能再把它当成“完全
Ai 技术
从 Prompt Engineering 到 Harness Engineering
一、为什么最近大家都在聊HarnessEngineering如果你最近在看AIAgent相关视频、文章或技术分享,你大概率会发现一个现象:前几年大家在讨论PromptEngineering,后来开始讨论RAG、ContextEngineering,而最近越来越多人开始讨论HarnessEnginee
【DB2 数据库】06 模拟故障排查系列:表空间容器不可访问(权限异常)实验
一、这篇文章要解决什么问题前面的几篇实验,我已经把表空间容量这一条线基本讲完整了:表空间打满ADD扩容EXTEND扩容AUTORESIZE自动扩容但在真实运维里,表空间出问题并不只有“空间不够”这一种情况。还有一类非常典型、也非常容易让人一开始看懵的故障:表空间的底层容器文件还在,但DB2突然不让访
【DB2 数据库】08 模拟故障排查系列:事务日志打满(LOG FULL)实验
一、这篇文章要解决什么问题前面的几篇实验,我已经把“表空间”和“容器”这一条线讲得比较完整了:表空间打满ADD/EXTEND/AUTORESIZE容器权限异常容器路径异常但在真实值班里,比“容器异常”更常见的一类故障,其实是:事务日志打满这类问题的典型现象通常是:SQL突然失败但磁盘不一定满表空间也