DANIELZHAN 1
技术资料整理集
——vSphere 虚拟化优化排错
技术资料整理集系列
DANIELZHAN 2
目 录
vSphere 障排查思想 3
针 Virtual Machine 障排查 8
针 Storage 障排查 15
针 vCenter ESXi 障排查 20
常障排查工具箱 27
命令行演示常规 ESXi 命令(补) 33
vSphere 性优化逻辑 34
针 VM 性优化 39
针 CPU 性优化 44
针 RAM 性优化 48
针 DISK 性优化 53
针 Networking 性优化 61
针 Networking 障排查 67
技术资料整理集系列
DANIELZHAN 3
vSphere 障排查思想
1障排查思维逻辑
障排查涉整体排错方法总体言障排查需遵循工作逻辑:
• 确认问题状况
o 确认问题
o 收集障相关问题
• 确认导致障原
o 确认什原导致问题
o 诊断问题根原什
• 解决问题
o 制定解决方案
o 评估数安全风险
o 执行佳解决方案
2障排查逻辑图示(流程细节)
图示说明:
• 配置问题软件 Bug硬件障三种常见障
• 软件 bug 示例
o ESXi 55 u1 u2 中存样常见软件 Bug:网卡原紫屏事件
• 硬件障示例:
o 机 HBA 卡电池出问题会写面会差表现 技术资料整理集系列
DANIELZHAN 4
3vSphere 常规障分层
4障解决 E2E
障状态 障原
1 LUN 见 LUN 见存储没恰 MAP
机
法通 vSphere Web Client 连接 vCenter VirtualCenter Service 没启动
Virtual Machine 法启动 文件锁定文件丢失
5案例流程 障状态(示例)
技术资料整理集系列
DANIELZHAN 5
6案例流程 日志搜集(收集日志信息进行障分析)
7案例流程 性分析
利结构化思维进行障分析效提高排错效率
根问题提示图示排错流程进行排错
图示说明:
• 进行排错
• 进行排错
• 中间环节排错
技术资料整理集系列
DANIELZHAN 6
8案例流程 查找问题根源
通反复测试确认问题根源例:
VM 响应排错逻辑:
图示说明:
• 果仅仅单台虚拟机响应建议
• 涉虚拟机响应慢建议中间环节
• 存告警建议
8案例流程 解决问题
• 完成问题根源定位评估问题带影响
o 较影响 立解决
o 般影响 条件许情况解决
o 较影响 空解决
• 制定解决问题方案
o 头疼医头 立刻事事解决问题
o 头疼医脚 避免问题次发生
o 长远考虑 整体考虑未思路触发执行问题处理
9vSphere 常规障排查流程 追根溯源(图示)
技术资料整理集系列
DANIELZHAN 7
图示说明:
• 处 vMotion 例障类似
10vSphere 排错组件纳
技术资料整理集系列
DANIELZHAN 8
二针 Virtual Machine 障排查
1VM 障排查思想
2VM 文件架构
3Content ID
谓 CID位 VM 磁盘描述文件里面负责磁盘相关整合状态踪 技术资料整理集系列
DANIELZHAN 9
图示说明:
• 母盘 parentCID fffffff
• 虚拟机快第级快 parentCID 母盘 CID第二级快 parentCID 第级快
CID(虚拟机存层快次类推)
• 果快层级出问题会导致快出问题导致虚拟机法启动
4障 01 解决 Countent ID 匹配问题
• Step1:备份磁盘描述文件
• Step2:载文件文编辑器开然修改 CID
• Step3:修改利命令验证 CID 修改否成功(提示失败意味着 CID 更改没
成功)
o vmkfstools q Win01A000002vmdk v10
注意:虚拟机快导致虚拟机法启动障时候快层级发生错乱致类问题采
述方法解决
5障 02 解决 Snapshot vss 导致障(执行 Snapshot 时提示 IO 静默
调失败)
技术资料整理集系列
DANIELZHAN 10
• VM 量 IO 负载导致执行 Snapshot 时 IO Quiescing 失败
• 通常通面 2 技术执行 IO Quiescing
o Microsoft Volume Shadow Copy Service(VSS)
o VMware Tools SYNC driver
• 初始化检查
o 检查否手动创建调 IO Quiescing 快
6解决 IO Quiescing 导致 Snapshot 失败障问题
• 果利 VSS 执行 IO Quiescing需确认列条件否满足
o VSS 求满足
o 相关服务正常运行状态
o Microsoft Software Shadow Copy 服务正常
o VSS Writer 没报错
• 果利 SYNC Driver 执行 IO Quiescing需确认列条件满足
o 禁止掉 SYNC Driver
o 执行 Snapshot 前先 IO 密集型业务停掉(数库)
• 老版 Windows OS 没包含 SYNC Driver Microsoft VSS 里面
7障 03 VM 开机失败
• vmwarelog 文件里面虚拟机开启失败
• 障原逻辑分析()
• 分析否 vm 文件丢失
o 执行命令查否存文件丢失
• ls vmfsvolumesSharedWin01B 技术资料整理集系列
DANIELZHAN 11
• 解决方案
o 利前备份恢复
o 果 descriptor 文件丢失手动重建文件
• 分析否虚拟机锁定
o 确认否存文件锁定
• 尝试开机虚拟机果失败说明锁定
• 执行命令查询否文件锁定
▪ touch filename
• 执行命令查台 ESXi Host 锁定磁盘文件
▪ vmkfstools D vmfsvolumesSharedWin01BWin01Bflatvmdk
• 执行命令找锁定进程信息
o lsof | grep
• 找杀掉
• 果然法确认进程导致虚拟机文件锁定简单逻辑
o 迁移虚拟机重启 ESXi Host
8障 04 VMware Toolsf 法安装( GOS 类型选择错误)
• 检查 Guest OS 类型否正常
• 分析 Guest OS 类型选错问题 技术资料整理集系列
DANIELZHAN 12
9障 05 Virtual Machine orphaned(虚拟机孤立)
检查 vCenter Server 否 VM 执行迁移程中重启该虚拟机(迁移 60时候容易出
现)虚拟机重启时会时性法状态会显示 orphaned
• 障原逻辑分析()
• 分析 vMotion DRS 导致障
o 确认否迁移导致障
• 查 Tasks 页标签
• 检查 orphaned 虚拟机注册源目标 ESXi Host
o 果找虚拟机注册 ESXi Host
• 重启 ESXi Host 理服务
o 果没找虚拟机注册信息执行
• 注册虚拟机 ESXi Host vCenter
• 利 orphaned 虚拟机 vmdk 创建全新虚拟机
• 分析虚拟机没通 vCenter 删导致障 技术资料整理集系列
DANIELZHAN 13
o 执行命令验证虚拟机文件否存
• ls vmfsvolumessharedWin01B
o 果配置文件删执行动作恢复
• 重建虚拟机重建*vmx 文件
o 果虚拟机磁盘文件删执行
• 备份恢复计划
• 分析*vmx 文件导致障
o *vmx 文件包含虚拟机配置信息果破坏会出现述问题
o 解决思路
• 利文件编辑器开*vmx 文件掉中部分重新尝试
• 备份信息里恢复*vmx 文件
• 直接 Inventory 里移掉虚拟机然重建 vm
• 分析 ESXi Host 根文件系统空间足导致障
o ESXi Host 根文件系统空间足时系统会尝试删掉虚拟机
o 执行命令确认否存问题
• DCUI 面执行df h
• 清必根文件系统里容
• Inventory 移掉 VM重新添加
10障 06 Virtual Machine Snapshot 障(尝试创建者处理快时出错)
• 确认 vm 磁盘否支持 Snapshot RDM Physical ModeIndependent Disk 等状态法
做快
• Snapshot 支持 32 级超会法执行
• 障原逻辑分析()
• 分析描述文件混乱问题导致障
o 快 delta 文件描述文件里错乱 技术资料整理集系列
DANIELZHAN 14
• 000001deltavmdk 文件 000001vmdk 里没正确描述
o Delta 磁盘根没描述配文件
• copy 基础磁盘描述文件然更名配 Delta 磁盘描述文件
• 编辑里面相关配信息更改 Delta 磁盘信息
• 分析文件尺寸问题导致障
o VMFS 5 Datastore 单文件支持 6293TB
o 快值会受限制
• VMFS 5 里超原始盘 8GB 左右
• 里 8GB 源开销部分
• 分析 Datastore 空间足问题导致障
o 处理快信息前提条件 Datastore 空间足够
o 通方式确认否足够空间
• GUI 查快 Datastore 空间否 ok
• ESXi host 运行命令:df h
• 解决方案
o 增加 Datastore 尺寸
o 移走虚拟机
技术资料整理集系列
DANIELZHAN 15
三针 Storage 障排查
1Storage 障排查逻辑
2vSphere Storage 架构示意图
• 虚拟机法时排障程度会 Storage 部分关系图 vSphere 环境
Storage 结构示意图:
3存储障 01 IP Storage 法 ESXi Hosts 访问
• 确认 ESXi Hosts 虚拟机 storage
o esxcli storage core path list
• 执行 rescan 动作否重新查
o esxcli storage core adapter rescan A
技术资料整理集系列
DANIELZHAN 16
• iSCSI Storage 结构示意图
o 果 ESXi Host 出现连接 IP Storage 障时需检查图示址:
• 障原分析逻辑
o 果 ESXi Hosts 访问 IP Storage 正常没做更改情况出现障参考
流程进行障解决尝试:
• 检查存储硬件级问题
o iSCSI HBA 卡 iSCSI Storage 阵列 ESXi Host 支持(较少见)
• vmware HCL 里查型号
o 确认 LUN 正确映射适 ESXi Hosts
• 存储组里 LUN 否映射 ESXi Hosts
• LUN 构建否符合 ESXi Host 标准
▪ ESXi 版支持 LUN 样
▪ 存储微码版
• LUN 否设定 RO(读)
• 阵列 For ESXi Host ID 否 255
o 存储设备障
• 利硬件工具诊断存储障
• 检查否 iSCSI 存储性
o 检查否设计佳 IP Storage 网路:
• 规避链路问题导致载
• 分开 iSCSI Traffic NFS Traffic 相关 vmk 接口
o 监控设备延迟情况
• 利 esxtop resxtop 命令输入 d 查 技术资料整理集系列
DANIELZHAN 17
• 检查 VMkernel 配置否异常
o VMkernel 接口 IP Storage 重接口
• ESXi Host ping iSCSI Target 址
▪ 例:ping 172201314
▪ 果 ping 通 IP 问题
• 检查 iSCSI HBA 卡配置否异常
o iSCSI Initiator iSCSI 连接重接口
• iSCSI Initiator 名称
• iSCSI Target 名称端口址
• CHAP
o 确认 VMkernel 网路卡绑定否正确图示:
注意: iSCSI 存储环境中NIC 做 Teaming VMkernel 话时间允许 iSCSI HBA
卡处活动状态
• 检查 iSCSI 3260 端口否达
o iSCSI TCP 端口 3260 命令检查:
• ESXi Host 执行 nc 命令查否 iSCSI Storage 3260 端口
▪ nc z
o 解决方案
• 确认存储运行否正常
• 确认 iSCSI 流量没干扰
• 检查 VMFS Datastore Metadata 致性(建议时做必备份)
o vSphere VMFS Datastore Metadata 致性需检查:
• vSphere Ondisk Metadata Analyzer(VOMA)工具检查 VMFS Metadata 致
性:
▪ voma m vmfs
• d vmfsdevicesdisksnaa000…00001
• s tmpanalysistxt
o 通常出现列情况需执行致性检查:
• 更换磁盘
• VMkernellog 里报 Metadata 错误
• VMFS Volume 文件法 ESXi Host 访问 技术资料整理集系列
DANIELZHAN 18
o 出现致性问题时建议执行动作:
• 重建 VMFS Datastore 恢复前备份
• 实行找 Vendor RD
4存储障 02 路径障
• 利 命令查找关 LUN 路径信息:
o esxcli storage core path list
• 利命令列出 LUN 路径配置信息
o esxcli storage nmp device list
• 检查否需执行 Rescan 重现 LUN
o esxcli storage core adapter rescan A
• 障原分析逻辑
o 果varlogvmkernellog 文件里关 permanent data loss(PDL) all paths down
(APD)类信息时执行障排查流程
• PDL 触发情况(vSphere 55 会发生)
• 计划外 PDL 修复
技术资料整理集系列
DANIELZHAN 19
• APD 触发情况
o 存储定时间法 ESXi Host 访问时 APD 发生:
• 种情况般短暂设备会快重新(存储 IO 负载时 vSphere 会触
发动保护机制暂时存储离线)
o 导致 APD 情况:
• 存储设备 ESXi Host 移动作非计划
• VMkernel 法检测存储设备导致
• IP Storage 前提网路连接中断导致 iSCSI 路径中断
• iSCSI HBA 卡身固件版障
o vSphere Web Client 里显示信息
• 设备变成 Dead Error 状态
• 存储路径变成 Dead 状态
• 设备 Datastore
• VMs 法
• APD 修复方式
o host 存储连接出现 APD 时想存储阵列区域网路里面修复需 ESXi
Host 重启
o APD 情况法执行 vMotion
o 针 APD 障ESXi Host 提供缺省组件:
• 全局设定里找:MiscAPDHandlingEnable
▪ 缺省 1表示激活存储 APD 处理机制
• Timeout 设定找:MiscAPDTimeout
▪ 缺省 140数表示 APD 障允许时间间隔秒单位
• 检查 NIC Teaming 异常
o iSCSI Storage 说NIC Teaming 配置重:
• 检查 Path Selection Policy 异常
o PSP 路径说直接影响着活动链路状态存储传输性
技术资料整理集系列
DANIELZHAN 20
四针 vCenter ESXi 障排查
1vCenter SSO 架构回顾
2SSO 工作逻辑
3SSO MultiSite 部署模式(跨城市跨国家跨区域环境)
技术资料整理集系列
DANIELZHAN 21
4SSO 障
障:SSO 法动发现信域
• 通常先安装 SSO 加域情况会出出现种情况
• 安装尝试命令恢复 SSO 安装目录找 utils 目录执行命令:
o ssocli configureriat verbose a discoveris u admin p
5vCenter 环境组件回顾
• VMware VirtualCenter Server service Webservice Management 服务会着 vCenter Server 动启动
• vCenter 服务器 DB 间必须通 ODBC 进行连接
障:VMware VirtualCenter Server 服务法启动
• 服务器理器里查该服务否真没启动
• 查 Windows Event 里面相关错误提示信息
1)障排查逻辑
• 检查存相关问题 OS 正常状态仅仅 OS 部问题做
排查时应重点关注 vCenter Server 身问题 技术资料整理集系列
DANIELZHAN 22
2)解决 ODBC 数源配置障问题
• 利注册表检查 vCenter Server 数源
• ODBC 数源设定否匹配
3)解决端口占问题
• vCenter 系统执行命令:
o netstat bano | more
• 果端口占掉突服务者 vCenter 配置端口推荐
技术资料整理集系列
DANIELZHAN 23
4)解决 VCMSDS 服务异常问题
• VMware VCMSDS 服务没正常运行
o 开 windows 服务理器 VCMSDS 服务否正常运行
o 尝试重启服务果失败请检查 windows 日志提示
障二:vCenter Server 服务启动缓慢
• vCenter Server 数库异常导致 vCenter Server 服务法启动
• 检查 vCenter Server 应数库配置否满足列求
o 磁盘空间否满
o 检查 SQL 相关信息(否空间足)
o 检查 Oracle 数库增长情况
o 检查 Oracle SQL 数表
o 验证 vCenter 数库授信效性
1)解决 vCenter Server 数库增长问题
• vCenter Server 数库增长会影响 vCenter server 性
• vCenter Server 会收集列数库中相关信息
o Performance data
o Tasks Events Logs
o Error Logs
• 数情况数库增长 Performance 数库增长快导致
2) vCenter Server 常规增长数表
• vCenter Server 数库然包涵系列数表例:
o vpx_hist_stat1 vpx_hist_stat4(包含 Performance 数信息)
o vpx_sample_time1 vpx_sample_time4( vpx_hist_stat 表相关 performance 时间帧数)
o vpx_event vpx_event_arg(存放 vCenter Server 中 Tasks and Events 页标签 Event 数信
息)
o vpx_task(存放 vCenter Server 中 Tasks and Events 页标签 Tasks 相关信息)
3)通 Rollup Jobs 控制增长
• vpx_hist_stat1 vpx_sample_time1 表里 Performance 数会面状态进行档:
o 汇总天 rollup 务
o 相关务会通数插入 vpx_hist_stat2 vpx_sample_time2 表完成
• 面时间间隔变化状态节点: 技术资料整理集系列
DANIELZHAN 24
4)验证数表尺寸
• 根相关性数判断 vCenter 性状况执行步骤查性相关东西
o vpx_hist_stat1 表开始 size 样
o 通常接受数量 10 million 果超存性问题
• 果觉 Performance 数没问题请检查 24 时否存较数变化情况
5)解决数增长快导致问题
• 确认 Statistic Rollup Jobs 存
• 确认 Datastore Server MSQL agent 服务否正常启动
• 确认 Statistic Collection Levels 设置高:
o 量 Statistics Level 2 VMware 建议超 Level2
o 果做 debugging建议增加 Static Level记做完做回调操作
6)重新初始化 vCenter Server 数库
• 列方式重置 vCenter Server 数库
o 重建 vCenter Server
o 找 VMware 厂家处理
o 压缩数库
• 通列方式重置 vCenter 数库配置
o vCenter 服务器执行命令
• vpxdexe b C\Program Files\Vmware\Infrastructure\VirtualCenter
6ESXi 障
障:ESXi Server 崩溃出现紫屏情况
• 机 crash 会导致 PSOD 出现
• 列种典型紫屏情况 技术资料整理集系列
DANIELZHAN 25
o CPU exception
o Driver module panic
o Machine check exception(MCE)
o Hardware fault
o 正版软件检测机制
PSOD 解决思路
• 记录前系统状态
o PSOD 拍
o 记录时相关障场景
• 重启 ESXi Host
o vm 够正常启动
o 利 vmsupport 命令收集机障包信息
• 联系 VMware 技术支持力量
障二:ESXi Host Hang 住
• ESXi host 列问题 Hang 住
o 整系统响应
o 系统重启没恢复正常
• 面种情况 ESXi Host Hang 住常见原
o VMkernel 繁忙者 deadlocked
o 硬件层面障
1)验证 ESXi 否 Hang 住
• 确认否做列操作
o Ping VMkerenl
o 确认否 vSphere Client 查询界面
o 监控 ESXi Host VMs 间否网路通讯
• 果述操作成功 ESXi Host 没 hang 机
技术资料整理集系列
DANIELZHAN 26
2)解决 ESXi Server Hang 掉问题
• 重启 ESXi Server
• 通列确认会出现 hang 机情况
o 日志
o 收集性统计信息
• 果硬件障解决尝试重装 ESXi Host 新补丁
技术资料整理集系列
DANIELZHAN 27
五常障排查工具箱
1命令行工具介绍
• vSphere 支持命令行工具中排错核心工具包括:
o DCUI ESXi Shell
o vSphere Management Asisstant(vMA)基网络
o vSphere Command Line Interface(vCLI)基网络
o ESXTOP(排错监控性优化)
• ESXi Shell
o ESXi Shell 访问途径两种
• DCUI
• SSH
o SSH 访问 ESXi Shell 方式
• 激活 ssh 访问服务
• 利 Putty 类工具访问
• vMA
o vMA 包含列容 Virtual Appliance
• vCLI 命令行
▪ 命令行工具执行面命令理 ESXi Host
• esxcli
• vimcmd
• Vicfg*
▪ 运行时先执行命令连接服务器
• vifastpass 授信组件
▪ 支持针 vCenter Server ESXi target 授信
▪ 次执行命令需输入权限信息
▪ 支持运行批处理脚信息
o vMA 配置 Active Directory 授信
• 果 ESXi Hosts vCenter Server 加入域通 vMA 统理
▪ vMA target 添加进
▪ 相言安全角度 vifastpass
• vMA 配置 AD 前建议做列事情
▪ 确认 vMA DNS 服务器台 os
▪ 确认 vMA 访问 Domain
▪ 确认 IP DNS 解析误
o 添加 vMA AD
• vMA 添加 AD Doamin
▪ sudo domainjoincli join
理密码 >> 重启 vMA
• 检查 vMA 配置 Domain 设定
▪ sudo domainjoincli query
• AD 授信添加 target
▪ vifp addserver
ADDOMAIN\\
DANIELZHAN 28
• Doamin 删掉 vMA
▪ sudo domainjoincli leave
• esxcli 命令介绍
o vSphere Storage 信息
• esxcli storage
▪ 获取存储路径配置LUN 信息 Datastore 相关设定
o esxcli network
• 查网路相关设定
o esxcli network vswitch standard
• 查 vSS 设定信息
o esxcli network vswith dvs
• 查 vds 相关信息条命令创建修改 vDS
o esxcli hardware
o vimcmd 操作 ESXi HostvCenter虚拟机等信息 技术资料整理集系列
DANIELZHAN 29
• 操作虚拟机
• 操作 ESXi Host
• 操作 vCenter
2vCenter Server 日志信息
• vCenter Server 包含系列日志信息
• Windows 2003 日志存放位置
o C\Documents and Setting\All Users\Application Data\VMware VirtualCenter\Logs
• Windows 2008 日志存放位置
o C\ProgramData\VMware\VMware VirtualCenter\Logs
3ESXi Host 日志位置 varlog 技术资料整理集系列
DANIELZHAN 30
4vCenter Server 核心日志列表
5ESXi Host 日志清单
6vSphere Web Client 中 Log Browser 技术资料整理集系列
DANIELZHAN 31
7ESXi Host DCUI 界面日志查器
8vSphere Syslog Collector
9诊断数收集 vmsupport
• 利 vmsupport 命令收集诊断数发送 VMware 技术支持部门进行障排查
• 总体需收集信息
o Log files
o System status
o Configuration files
• vmsupport esxi host 执行然收集相关 Core 信息收集信息格式 xxxxxx
20160821tgz
技术资料整理集系列
DANIELZHAN 32
10vSphere Web Client 日志导出
技术资料整理集系列
DANIELZHAN 33
六命令行演示常规 ESXi 命令(补)
技术资料整理集系列
DANIELZHAN 34
七vSphere 性优化逻辑
1虚拟化逻辑分层示意图
2X86 结构虚拟化问题
• X86 os 通常直接运行物理硬件层面执行权限必须 ring 0
• X86 虚拟化架构求 os 运行虚拟化层级面
3CPU 软件虚拟化
• 二进制转换原始 32bit x86 虚拟化指令结构
• 利二进制转换实现:
o VMM 单独运行 ring 0保证相独立性
o Guest OS 运行 ring 1 技术资料整理集系列
DANIELZHAN 35
o Applications 运行 ring 3
4CPU 硬件虚拟化
• CPU 硬件虚拟化 VMM 运行虚拟机变更加简单
• CPU 硬件虚拟化允许 VMM 赖二进制转换然够完全控制虚拟机
• 包括两种
o Intel VTx
o AMDv
5Intel VTx AMDv
• 两者 CPU 种指令执行模式功:
o 允许 VMM 运行 ring 0 root mode
o 动通 hypervisor 获取权限灵敏度级
o 存放 Guest OS 虚拟 CPU 控制架构中状态
技术资料整理集系列
DANIELZHAN 36
6存工作示意图
7虚拟环境性分析
• 第维度:
o 单台物理服务器单台虚拟机
• Hypervisor 位物理设备虚拟机间
o 影响性重素
• VMM overhead
• 第二维度:
o 单台物理机运行台虚拟机
• Hypersior 位物理设备虚拟机间
o 影响性重素
• 调度开锁网路存储计算资源足等问题
• 第三维度:
o VMware vSphere Distributed Resource Scheduler 技术资料整理集系列
DANIELZHAN 37
• 降低第二维度中存部分性问题
o 影响性素
• 高频次 vMotion 动作
8vSphere 环境中影响性素
• 硬件层面:
o CPU
o Memory
o Storage
o Network
• 软件层面:
o VMM
o Virtual Machine 设定
o Applications
9关性佳实践
10常见性问题
• 通常性问题应该进行综合性定义理程中出现
• 综合产品性问题言性问题通常体现方面
o 应程序法满足 ServiceLevel Agreement
o 应程序法满足预先规划性浮动范围
o 户反馈性障吞吐足 技术资料整理集系列
DANIELZHAN 38
11性问题排错方法
• 排查性问题排查障问题时候相似者说:性问题障问题界限实模
糊需遵循类似方法较效进行排查
• 根前辈厂家总结验通常建议参考 逻辑定义障
o 障体现形式什?
o 里着手开始查找问题?
o 确定样检查问题?
o 否确认找问题真正意义问题?
o 想针性解决问题需做什
o 果处理问题然存接该办?
12针 ESXi Host Checklist
13vSphere 性优化工具
技术资料整理集系列
DANIELZHAN 39
八针 VM 性优化
1VM 性相关概览
• 精细化配置调校 VM 会 Applications 提供运行环境
• 通常考虑 VM 性相关参数包含列选项
o Guest OS
o VMware Tools
o CPU
o Memory
o Storage
o Network
2首先选定合适 OS 类型
• 创建 VM 时定正确选择 Guest OS 类型
• Guest OS 类型会决定缺省优化硬件配套设定
3保证 Guest OS 时间
• VM 里时间计算逻辑会导致 Guest OS 时间想保持准确性重
• 规避种性方式
o 量选择需较时间中断 Guest OS
• 数 WindowsLinux 24100 Hz(秒 100 中断计数)
• 数 Linux 26 1000 Hz
• 新 Linux:250 Hz
o NTP Server 方法
• 2 种时间少方式
4VMware Tools
• 提升 VM 性理性
• 保持 VMware Tools 新版
• 确保 VMware Tools 处正常 激活状态果没激活请激活 技术资料整理集系列
DANIELZHAN 40
5Virtual Hardware 兼容性
• Virtual Hardware 兼容力丐 ESXi Host 版关系高版低版 Virtual Hardware 功
性兼容级
o 会影响着 VM 性
o 正常状态升级降级
o Virtual Hardware 版兼容
6Virtual Hardware v10
• 版出现 vSphere 55 中虚拟机支持列新功
Version 10 组件 优点
VMDK 支持 62TB 跑更业务例:文件服务器
支持 Advanced Host Controller Interface(AHCI) OS X 控制器
台虚拟机支持 4 SATA 控制器控制器 30
设备
支持 vm 挂接更 SATA 设备
LSI SAS 支持 Solaris 11 解决 Solaris 10 升级 11 启动
问题
7针 CPU
• 非运行 OS 里 Applicantion 需求否量避免 vSMP
o 激活 SMP进程会 跨 vCPUs 进行迁移会导致额外开销
• 果选择 OS 缺省建议配置 技术资料整理集系列
DANIELZHAN 41
8关 vNUMA
• vNUMA 允许 NUMAaware Guest OS Application 通硬件层 NUMA 架构提升资源利效率
• vNUMA
o 求 virtual hardware v8+(ESXi 50+)
o vCPUs 数量超 8 时动激活
o vSphere Web Client 里激活禁止
9针 Memory 部分考量
• 存页面状态:
o ESXi 支持 2MB 存页面 Guest
o 存页面存会降低存理开销够变相提升 hypervisor 性
• Transparent page sharing 组件唯 overcommitted
o 果 Guest OS Applications 够 handle 话建议存页面
• VM 交换文件单独找方存放
o SSD 配置 Host Cache 作存放 swaptohost cache
o 果机没 swaptohost cache 功建议存放磁盘远程 SSD 空间
o 量交换文件存放 Thin 模式 LUN 面
10针 Storage 部分考量
• 选择合适 Guest OS 硬件类型
o BusLogic LSI Logic
o VMware Paravirtual SCSI(PVSCSI)适配器
• 针 IO 敏感类型业务选
• PVSCSI BusLogic LSI Logic 相似部件低 CPU 开销高吞
吐低延迟更扩展力控制器类型
o Guest OS 队列深度适中
o 齐 OS 分 技术资料整理集系列
DANIELZHAN 42
11针 Network 部分考量
• 果选择量 vmxnet3 款虚拟网路卡:
o 果支持 vmxnet3退求次选择 Enhanced vmxnet
o 果 Enhanced vmxnet 支持选择 flexible 类型
• 量选择支持机物理卡高性功组件虚拟网路卡例 TCP checksum offladTSO Jumbo
Frames 等
• 确保物理网路卡运行全双工模式高速状态
12开启 VM 建议
• 虚拟机开启成功启动前会消耗量资源
o CPU Memory reservations 必须满足
o 需足够磁盘空间存放面 2 vswp 文件
• *vswp
• vmx*vswp
o 果 vm 配置 vSphere Flash Read Cache(vFRC)需足够 SSD 磁盘
13开启 VM CPU 存预留
• 利开启 vmESXi Host 必须量 CPU存资源满足虚拟机启动然需
包含启动台虚拟机需额外 Memory 开销
技术资料整理集系列
DANIELZHAN 43
14针 VM Swap 文件存放建议
• 想成功开启 VM 需足够存储空间存放 swap 文件
o *vswp 交换文件取决虚拟机已配置存预留值
o vmx*vswp 交换文件取决虚拟机 Overhead Memory Vmkernel Reservation
15开启 VM vSCSI 类型建议
• 想成功启动 VMGuest OS 必须支持 SCSI Controller
• SCSI Controller 选择创建时创建修改
• 创建虚拟机导中会根 Guest OS 类型设定默认建议选择
16VM 性佳实践
• 创建 vm 时选择合适 Guest OS 类型
• 必设备例USB CDROM 软驱等删
• 仅仅 Applications 支持 MultiThreaded 时配置 SMP
• Guest OS 配置时间步
• 务必 vm 安装 VMware Tools 保持新版
• 建议新 Virtual Hardware 版
• 针 IO 类型业务需考虑清楚会导致 Guest OS IO 性受影响
• 做 Guest OS 分区齐
• vmxnet3
技术资料整理集系列
DANIELZHAN 44
九针 CPU 性优化
1World 概念概述
• 基 World 理解 CPU 调度执行务
o World 传统 OS 里进程样
• VM 相级 worlds 集合
o vCPU
o 虚拟鼠标键盘屏幕(MKS)
o VMM
• CPU Scheduler 会选择 World 调度应物理 CPU core
2CPU Scheduler 组件
• CPU 资源分配户言动态透明
o vCPUs 调度物理 CPUs
o 2 ~ 40ms 会检查次物理 CPU 情况然需迁移 vCPUs
• 针 CPU 情况强制采 proportionalshare 算法
o CPU 资源 overcommitted机会 VMs 执行物理 CPU timeslice
o vCPU 调度时会资源设定优先级调
3CPU Scheduler 组件:VM SMP 相关
• VMware ESXi coscheduling 表优化虚拟机 SMP 效率
• Coscheduling 工作原理时间 CPU 调度请求分散物理 CPU
o 颗 vCPU 会时 ScheduledDescheduledPreemptedBlocked 等
• SMP 虚拟机里发生 vCPUs 调度时CPU Scheduler 会导致调度均衡问题
o 两颗 vCPUs SMP 虚拟机调度 CPU 时存执行速率会
均衡 技术资料整理集系列
DANIELZHAN 45
o 某 vCPU 外整体 vCPUs 调度没完整执行vCPU 均衡程度会加剧
o vCPU 均衡例超定例会判定均衡
4CPU Scheduler 组件:Relaxed CoScheduler
• 该组件技术表示检测均衡时调度量虚拟机 vCPUs 技术
o 减少虚拟机 Costart 物理 CPUs 数量求
o 增加 CPU 利率
• 针 idle vCPU 存 coscheduling 开销部分
5CPU Scheduler 组件:Processor topology
• CPU Scheduler Processor topology 信息优化 vCPUs Sockets 位置存放选择
• CPU Scheduler 会 Sockets 分布负载便充分利 Cache
o 单 Socket 里 Cores 通常会享 LastLevel Cache
o 享 LastLevel Cache存敏感业务提升 vCPU 性
• SMP 虚拟机 vCPUs 间表现出明显数享时托缓存分布方式会退求次负
载分布方式
o 通 vmx 文件里增加 schedcpuvsmpConsolidate TRUE行参数覆盖掉缺省调度
逻辑
6CPU Scheduler 组件:NUMAaware
• NonUniform Memory Access(NUMA)机会直边 1 存控制器 CPU 提供
存:
o 台物理服务器通存访问 CPU 进程效率会高远程存
o 虚拟机存分布中部分存意味着时 NUMA 性较差
• NUMA scheduler 限制 vCPUs 单 Socket 便充分利缓存
7WideVM NUMA Support
• WideVM 表示虚拟机拥超 NUMA 节点 Cores vCPUs 数量 技术资料整理集系列
DANIELZHAN 46
o 例:1 台 4 vCPUs SMP 虚拟机分布 2 Scokets 2 Cores 环境
o Cores 数量满足算 WideVM(HT 算)
• 1 台 8 vCPUs 虚拟机 分布 2 Scokets 4 Cores 系统跃然激活 HT
NUMA 节点 CPU 4 Cores算作 WideVM
• WideVM NUMA 支持 WideVM 分割更 NUMA Client 环境里
o WideVM Client 分配 Home Node
• 例:1 台 4 vCPUs SMP 虚拟机运行 2 Socket 2 Cores 系统时会 2 2 vCPU
NUMA Clients1 台 8 vCPUs SMP 虚拟机运行 2 Sockets 4 Cores 系统时会 2
4 vCPU NUMA Clients
o WideVM 包含 Clients存 Home Nodes Client Home
Node
8WideVM NUMA Support 性影响
• 1 台运行 2 Sockets 4 Cores 机 8 vCPUs SMP 虚拟机例(案例中WideVM NUMA 支持
否影响性):
o 假设 Uniform Memory Access 约 50存 Local果 WideVM NUMA
Support 会 2 Home Nodes
• 1 台 4 Sockets 2 Cores 系统例 25左右存 Local(样性会直接访
问 12 左右):
o WideVM NUMA support 相变相提升 50存访问例
9影响 CPU Performance 相关素
• Idling virtual machines
o Gues 需 Time Interrupts 开销
• CPU affinity
o CPU affinity 会限制 Scheduler 会导致负载均衡
• SMP virtual machines
o 会产生 CoScheduling 开销
• CPU 资源足时资源调度逻辑
o 果存 CPU 争 Scheduler 会强行优先级序次满足高优先级>低优先级虚拟
机 CPU 请求
10CPU Read Time
• vCPUs 工作模式 CPU Scheduler 根 Proportinonalshare 算法获取物理 CPU Cycles
o 果 vCPU 想尝试没 CPU Cycles 物理 CPU 执行指令时请求会列入等队
列
o 物理 CPU 没 Cycles 通常物理 CPU 够高优先级 vCPUs 吃占关
• vCPUs 等物理 CPU Cycles 时间集合 CPU Ready Times
o 概念该知道样必然会影响 Guest OS Performance 技术资料整理集系列
DANIELZHAN 47
注:关 RDY详情请查阅httpbbsvmanagercnthread631111html
11vSphere Client 查 CPU 指标
12esxtop CPU 性分析参数
• PCPU USED() 物理 CPU 率
• 组统计数信息:
o USED率(包含SYS)
o SYSVMKernel 系统活动时间
o RDYReady Time
o WAITWait idling 时间
o CSTP提交 coschedule 百分
o MLMTD CPU Limit 导致法调运行参数
o NWLD指定 Group 分配 Worlds 数量
• 输入V查虚拟机相关输出信息
• 输入e显示虚拟机分配 worlds
• 监控性重指标
o Highusage 值
• 值通常意味着高资源率
• 参数适象
o Ready time
• 衡量 CPU 否存性问题重指标
• CPU Ready Time 发生虚拟机 CPU 请求数量超物理 CPUs 数量情况
• 计算方式:x * 100 20000 00001 y
注:x时间单位 ms 20000 单位 ms缺省系统刷新周期 20s y RDY 百分(超 10时会
存性问题超 5时会存时存严重性性问题)
技术资料整理集系列
DANIELZHAN 48
十针 RAM 性优化
1MemFreeMinPct
• MemMinFreePct VMkernel 需保持 free 状态存数量控制参数
o VMkernel 通弹性例基 ESXi Host 配置存决定 MemMinFreePct 参数值
机存 MemMinFree 状态
0 ~ 4GB 6
4 ~ 12GB 4
12 ~ 28GB 2
超 28GB取剩余存余量 1
2VMkernel 执行存回收逻辑
系统状态 存回收激活级
High None
Soft Balloning
Hard CompressionSwapping
Low 全部激活
3vSphere 5x 存回收阀值计算
• 假设 MemMinFree 值 1619MB存阀值计算例 :
Free 存状态 阀值百分 MB 计算阀值
High 超 MemMinFree 1619MB
Soft 64*MemMinFree 1036MB
Hard 32*MemMinFree 518MB
Low 16*MemMinFree 259MB
4Guest OS 里面存相关参数
• 通常情况 Guest Memory Host Memory 率什呢? 技术资料整理集系列
DANIELZHAN 49
o Guest physical memory
• Guest 里面评估活动存状况时更加直观
• ESXi 活动存评估技术需时间完成
o Host physical memory
• Host memory 情况会实显示 Guest 存相关情况
• Host memory 情况会基虚拟机物理机 Guest 存相关优先级定
5Consumed Host Memory Active Guest Memory
• Consumed host memory > active guest memory
o 果没发生 Memory overcommitted种状态 ok
o Consumed host memory 代表着 Guest 高存量
• Consumed host memory < active guest memory
o Active guest memory 完全等 Host Physical Memory
o 种情况性存问题
6利 resxtop 监控存状况
7vSphere Client 监控 Host Swapping
技术资料整理集系列
DANIELZHAN 50
8 resxtop Host Swapping 01
9 resxtop Host Swapping02
10vSphere Client 监控 Balloon Driver
11resxtop Host Balloon 技术资料整理集系列
DANIELZHAN 51
12Active HostLevel Swapping 01
13Active HostLevel Swapping 02
技术资料整理集系列
DANIELZHAN 52
14解决存瞳问题
• 解决 Host Swapping 问题
o 虚拟机安装 VMware Tools 激活 Balloon Driver 功
o 减少虚拟机设定 Reservation 值
o ESXi Host 添加物理存
o 减少 ESXi Host 机 VMs 数量
o 虚拟机启 Host Plug Memory 功方便增加
15Balloon Driver vs Swapping
16什时候出现 Swapping 发生 Balloon 前?
• 时开启量虚拟机时会出现情况
o 时虚拟机会消耗量存
o 需 VMware Tools 支持 Balloon Driver 没启动会导致 Swapping
• HostLevel Swapping 会导致启动缓慢完成启动定会影响性
• 虚拟机存 Swap Out 磁盘时定会影响性果部分存访问话
17Memory Best Practice
• Memory 佳实践
o 必 VMs 分配足够存避免 Swapping
o 禁止掉 Balloon Driver
o 保证 TPS 功开启
o 避免 Memory Overcommitted
o 必 VMs 启 Memory HotPlug 功
o 配置 Host Level Cache SSD 做 cache disk
o ESXi Host 运行太 VMs
技术资料整理集系列
DANIELZHAN 53
十针 DISK 性优化
1针 Datastore Performance 相关监控
2磁盘相关参数
• 检查否存磁盘障
o 确认否足够带宽否满足预期应开销需求
• 针样问题办?
o 检查相关关键参数包含类似面参数:
• 磁盘吞吐
• Devicekernel Latency
• 磁盘命令迫终止数目
• 磁盘命令 Active 数目
• 队列 Active 命令数目
3vSphere Web Client 监控磁盘吞吐
• 关键参数:读写速率情况
技术资料整理集系列
DANIELZHAN 54
4利 resxtop 监控磁盘吞吐
• 面参数评估磁盘吞吐情况:
o READss and WRITEss
o READss + WRITEss IOPS
• 选 MB 方式计算
o MBREADs and MBWRTNs
5磁盘吞吐状况范例
• 注:输入字母 d hba 卡相关信息
o 输入字母 u 查 lun 相关信息
o 输入字母 v 查虚拟机相关信息
6vSphere Web Client 监控磁盘 Latency
技术资料整理集系列
DANIELZHAN 55
7利 resxtop 监控磁盘 Latency
• DAVGcmdLUN 均延迟 ms 单位
• KAVGcmdvmkernel 均延迟 ms 单位通常超 3ms 会性问题
• GAVGcmdGuest 均延迟 ms 单位GAVG DAVG + KAVG
• QAVGcmd队列均延迟 ms 单位
8监控命令队列命令
性指标 Web Client 名字 esxtopresxtop 名字
活动命令数目(前活动 IO 状况) Commands issued ACTV
命令队列数目(等处理 IO 操作) Queue command latency QUED
9磁盘 Latency 队列范例
10监控否存严重存储载
• vSphere Web Client 视图Disk Command Aborts 技术资料整理集系列
DANIELZHAN 56
• resxtop 命令参数:ABRTSs
11针 Datastore 配置 Alarm
• Datastore 配置 alarms 方式:
o 右击 datastore > Alarms > New Alarm Definition > 输入想发生状态监控条件
12分析 Datastore Alarms
• 点击 Monitor > Issuses > Triggered Alarms
技术资料整理集系列
DANIELZHAN 57
13设备驱动队列深度
• 设备驱动队列深度决定 LUN 时间支持活动命令数目
• 设置设备驱动队列值降低磁盘延迟:
o Qlogic 适配器默认队列深度 64
o 通常缺省队列深度 32
o 队列深度建议 64
• DiskSchedNumReqOutstanding 值设定队列深度样合适
14存储队列
• ESXi Host 机端队列:
o 设备驱动队列深度控制着 LUN 面意时间活动命令数目
• 缺省深度 32
o VMkernel 队列设备驱动队列溢出部分
• 存储陈列队列:
o 针存储阵列活动命令数高时会产生部分队列
• 机端存储阵列端果量队列会增加命令延迟 技术资料整理集系列
DANIELZHAN 58
15SCSI Reservation 途讲解
• SCSI reservation 干什
o LUN 较短周期单机占时间
o VMFS Metadata 更新时支持 VMFS 实例锁定文件系统
• Metadata 更新通常会受列素影响:
o 创建删 VMDK
o 增加 VMFS Size
o 增加 VMDK 文件 Size
o 更改磁盘模式
• 化虚拟机性影响:
o 高峰时期做前面事情
• 果存储阵列支持 vSphere Storage APIS Array Integration(VAAI)硬件辅助锁定功 SCSI
reservation 必
16存储路径技术简介
• 帮助解决存储存储性障
• 支持面种 Path Selection Policy
o Most Recently Used(MRU)
o Fixed(Fixed)
o Round Robin(RR)
o Maybe ThirdParty(PSP)
17VMware Virtual SAN DISK 性相关
技术资料整理集系列
DANIELZHAN 59
18vFRC 概述
• 关键组件:
o 置 Hypervisor软件定义SSD 配合 HDD 分层存储
o 基 Flash 设备提供针 VMs 高性读取访问支持(Virtuall Flash Host Swap Cache)
o 设备配置 Flash Cache
o 列组件结合:
• 求 vSphere 55 Enterprise Plus
• VMware vCenter Server
• vSphere HA
• vSphere DRS
• VMware vSphere vMotion
19vFRC DISK 性优化
技术资料整理集系列
DANIELZHAN 60
20vFRC Volume 限制
相关参数描述 台机
台 ESXi Host 支持 Volume 数量 1(local only)
Flash SSD Volume SSD 数量 8
SSD Flash 4TB
虚拟闪存 Volume 32TB
技术资料整理集系列
DANIELZHAN 61
十二针 Networking 性优化
1网路相关参数
• 衡量网路性相关参数?
• 通常网路相关关键参数网路统计信息相关部分包括:
o Network usage
o Network packets received
o Network packets transmitted
o Received packets dropped
o Transmitteed packets dropped
2vSphere Web Client 监控网路相关信息
4利 resxtop 监控网络统计信息
• 输入字母 n 查网路相关统计示意图
• 相关重参数包括
o MbTXs Data transmit rate
o MbRXs Data receive rate
o PKTTXs Packets transmitted
o PKTRXs Packets received
o DRPTX 传输丢包率百分
o DRPRX接收包丢包率百分
5vSphere Web Client 查网路性 技术资料整理集系列
DANIELZHAN 62
6利 resxtop 查网路性
7Network IO Virtualization Overhead
技术资料整理集系列
DANIELZHAN 63
• Network IO Virtualization overhead 层面例:
o Emulation 开销
o 包处理程中
o 调度
o 虚拟中断组合
o 物理 CPU 带 Halt Wake Up
o 虚拟 CPU 带 Halt Wake Up
• Network IO latency 会网路虚拟化开销导致增加
8vmxnet 虚拟网路卡
• vmxnet VMware 准虚拟化设备优势:
o 虚拟机 VMkernel 间享 Ring Buffer
o 支持传输包聚合处理
o 支持中断聚合处理便减轻网路中断开销
o 支持 Offloads TCP checksum 硬件计算
9影响网路性相关组件
• vSphere 通结合物理网路卡新特性实现针网路性提升保障包括:
o TCP checksum offload简单说利网路卡进行 TCP 校验
• TCP checksum offload 物理网路卡功处:
▪ 允许利网路卡针网路包执行 checksum 操作
▪ 降低物理 CPU 开销压力
▪ 够根包程度提供更性支持
o TCP segmentation offload简称 TSO简单说利网路卡 TCP 包切片
• TSO 通减少量 TCP 流量发送需 CPU 负载情况提升网络性: 技术资料整理集系列
DANIELZHAN 64
▪ 较 TCP 包会 Offload 网路卡进步细分处理
▪ 网路卡会切割 MTU 帧
• 果网络卡支持 TSO 会默认 VMkernel 接口激活
• 虚拟机级 TSO 需手动激活
o Jumbo frames
• 进行包传输前IP 层会包切片 MTU 帧:
▪ 缺省 MTU 1500 字节
▪ 接收端行重组相关数
• Jumbo Frames 特征:
▪ 支持更太网包 9000 字节
▪ 减少帧传输数量
▪ 降低发送接收端 CPU 率
• 虚拟机端虚拟网路卡配 vmxnet3
• 网路端端需支持 Jumbo Frames
o 利 DMA 直接访问存
• 加快包处理效率网路卡允许直接 DMA(Direct Memory Access) Memory
• DMA 处
▪ 绕 CPU NIC 直接访问存
▪ 避免存空间需通 VMkernel 处理次情况
▪ 利 ScatterGathe 方式实现存写入相邻存区块
▪ 允许灵活存进提供更性
o 10 Gigabit Ethernet 40 Gigabit Ethernet
o NetQueue
• NetQueue 性提升体现面方面:
▪ 10GbE 40GbE 网路卡环境幅提升虚拟环境网路性
▪ Multiple TransmitMultiple Receive Queues 方式实现 IO CPU
处理
▪ 仅限支持 MSIX(Extended Message Signaled Interrupts)系统类型
o VMware vSphere DirectPath IO
技术资料整理集系列
DANIELZHAN 65
o vSphere DirectPath IO 允许虚拟机直接访问物理网路卡
o vSphere DirectPath IO
• 求底层激活 IOMMU
• Intel CPU 求支持 VTd AMD CPU 求支持 AMDVi
• SpliRx Mode
o SplitRx 通利物理 CPU 处理单网路队列中收网路包方式帮助提升网路性
o 台 ESXi Host 台 VMs 接收相数源播通讯时激活 SplitRx 模式
o vmxnet3 支持 SplitRx 模式
o SplitRx 模式会 ESXi Host 检测物理网路卡单网路队列符合列条件时会 激活:
• 网路卡率负载重
• 网路卡秒超 10000 广播播包时
10Single Root IO Virtualization
• Single Root IO Virtualization(SRIOV)允许单块物理 PCI Express(PCIe)卡时台虚拟机
• SRIOV 工作场景:
o 针网路延迟延迟活 CPU 敏感型业务虚拟机
o 针需 Offload IO 物理网路卡处理需降低网路延迟业务
• SRIOV 配置求:
组件 求
vSphere Intel CPU 求 vSphere 51+
AMD CPU 求 vSphere 55+
Physical host 必须支持 InputOutput Memory Management Unit(IOMMU)
必须 BIOS 激活 SRIOV 功 IOMMU 功
Physical NIC Intel 82599ES 10 Gigabit 网路卡系列
Intel Ethernet Controller X540 网路卡系列
Emulex OneConnect(BE3)
Guest operating systems Red Hat Enterprise Linux 6x
Windows Server 2008 R2 with SP2
• SRIOV 兼容功 SRIOV 功启功法
o VMware vSphere vMotion
o VMware vSphere Storage vMotion
o VMware vSphere High Availability
o VMware vSphere Fault Tolerance
o VMware vSphere Distributed Resource Scheduler
o VMware vSphere Distributed Power Management
o Virtaul Machine 挂起恢复
o Virtual Machine Snapshots
o 虚拟机设备热添加
o Cluster
技术资料整理集系列
DANIELZHAN 66
11Network 性佳实践
• vmxnet3 块虚拟网路卡
• 充分利物理网络卡高性组件
• NIC Teaming 帮助 Load Balancing
• 合理规划虚拟交换机构成条件许情况分开业务 vSwitch
• 条件许情况量启 Traffic FlowNetwork IO Control 等功
• 网路负载较重情况保证足够物理 CPU 性
技术资料整理集系列
DANIELZHAN 67
十三针 Networking 障排查
1Networking 子系统障排查逻辑
2网路障案例 01 ESXi host 网路连接稳定间性中断
• Initial check
o ESXi Host DCUI 执行执行 ping ESXi Host 命令
• vSwitch Port Group 示意图
技术资料整理集系列
DANIELZHAN 68
• 障原分析逻辑
o 果时确认硬件身正常遵循流程执行障排查开始 ESXi Host 配置入手
注意:通常说hardware 层面出问题性
• 检查 ESXi 网路配置异常
o 验证 ESXi Host 配置否正常
• 检查 vSSvmnics Port Groups
▪ esxcfgvswitch l
• 检查 Port Groups VLAND ID
▪ escli network vswitch standard protgroup list
• 检查速率双工模式
▪ esxcfgnics l
• 检查网路连接状态(updown)
▪ esxcfgnics l
• 解决网路 ESXi Host 网路配置异常问题
o 根障节点执行面命令分针象执行修正命令
• 针 vSSvmnics Port Groups
▪ 添加 vSS:esxcfgvswitch a
▪ 添加 Port Group:esxcfgvswitch A
▪ 添加行链路:esxcfgvswitch L
• Port Groups VLAN 设定调整
▪ esxcli network vswitch standard portgroup set p
• 速率双工模式调整
▪ esxcfgnics d
• 连接状态调整(updown)
▪ 网路卡连接恰物理交换机端口组
• 查否 NIC Teaming 策略配置错误
o 验证 NIC Teaming 配置否异常 技术资料整理集系列
DANIELZHAN 69
• 利 lspci 查询否硬件支持障
o 执行命令验证否硬件问题导致
• 执行命令查硬件否兼容
▪ esxcfgnics l
• vmware 官方 HCL 查询该设备否 List 里面
o 执行命令查否硬件障导致
• lspci p
• 利 esxtop 查询否网路性低
o 利 esxtop resxtop 命令查网路连接状态确认否性问题
3网路障 02 虚拟机网路连接中断(虚拟机网路网路连接中断)
• 执行初始化障检查
• 虚拟机 cmd 界面执行 ping 命令失败
o 尝试虚拟机 ping VMs ESXi Hosts 时失败相反设备 ping 时然失
败 技术资料整理集系列
DANIELZHAN 70
• 虚拟机网路连接示意图
o 果虚拟机丢失网路连接问题分:物理层>虚拟层>GOS 层
• 障原分析逻辑
• 检查 IP 防火墙设定障
o IP 设定障
• GOS 里检查 IP子网掩码网关等设定
o GOS 防火墙障
• 确认防火墙 Inbound Outbound Traffic Policy非必关闭防火墙
• 检查 Porg Group 配置异常
o 虚拟机连 Port Group 名字
• 执行命令验证 ESXi Host 否存 Port Group
▪ esxcfgvswitch l
• 确认虚拟机连接 Port Group 确需
o 虚拟机网路卡没连接 Port Group
• 图示确认 Connected 选项正常 技术资料整理集系列
DANIELZHAN 71
• 检查 ESXi Host 连接障
o 检查 ESXi Host 否存存储资源争
• 确认虚拟机没处离线状态没存资源争情况
o 检查 ESXi Host 网路连接否存问题
• 参前面相关命令诊断否存 ESXi Host 网路问题
o 检查否存 pNIC 物理障
• 虚拟机连接配置 NIC Teaming vSwitch
• 检查 vSwitch 否足够端口
o 虚拟交换机法提供足够虚拟端口虚拟机连接网路中
• 通常 VMs 发生 vMotion vSphere HA
o 点击图示 vSwitch > Edit Settings
o 执行 esxcfgvswitch l 命令查已配置端口数量行
• 解决 vSwitch 端口数量足方法
o 果确认 vSwitch 法提供足够端口数量虚拟机网路连接时采取方式
处理
• 增加前 vSwitch 虚拟端口数量然重启台 ESXi Host
• 创建新 vSwitch然分离部分 VMs 新 vSwitch
4网络障 03 ESXi Host 频繁 vCenter Server 断开连接重连
• ESXi Host 成功添加 vCenter Server Inventory隔 30 90 秒会动断开连接
• DroppedBlocked 丢失 Heartbeat 包 vCenter Server ESXi Host 间频繁发生
技术资料整理集系列
DANIELZHAN 72
• vCenter Server ESXi Host 通讯结构
o ESXi Host 会发送心跳 vCenter Server 便知道 ESXi Host 理网路否访问
• 障原分析逻辑(障分析时需针 vCenter Server ESXi Host 间软硬件进行检
查)
• 检查 Windows 防火墙封锁端口
o windows 防火墙理器查否封锁 UDP 902 端口
• 检查 vCenter Server 未 902 端口
o vCenter Server 没通 902 端口进行心跳传输
o 执行命令验证选项配置
• less etcvmwarevpxavpxacfg
技术资料整理集系列
DANIELZHAN 73
• 解决 902 端口问题 方案 1
o 修改端口 902
• 找边示端口位置改 902 端口保存
• 解决 902 端口未问题 方案 2
o 修改 vCenter Server 注册表
• 调整图示 HeartbeatPort 选项 902
• 检查 vCenter Server ESXi Host 网络拥堵
o 果 vCenter Server ESXi Server 间通讯拥堵会导致 heartbeats 丢弃
o 利工具诊断理网路否拥堵
• Wireshark
▪ 通网路分析工具支持两种常规分析功
• 镜实时网路通讯流量
• 显示 Pakets 详细协议信息
• 利 tcpdumpuw 命令
▪ 条置 ESXi Host 里命令网路诊断
• 例:显示指定 vmk 信息
• tcpdump uw i vmk0
• 解决网路拥堵问题方案
o 简单方案 技术资料整理集系列
DANIELZHAN 74
• 增加 vCenter Server ESXi Host 间通讯 Timeout 限制
o 建议方案
• 根源寻找网路中存问题
• 果先 vDS Network IO Control 调整理网路优先级
5网路障 04 vCenter Server 法理 ESXi Host
• 种问题通常 ESXi Host 理网路配置异常时出现
• 者 vSphere Web Client 里 ESXi Host 响应时出现
• 分布式虚拟交换机结构(分布式虚拟交换机结构会导致异常理网路中断)
• Restore vSS( vDS 出现障时 DCUI 恢复 vSS 网路)
• 利备份恢复 vDS 配置
o 利 vSphere Web Clinet vDS 执行列动作
• Export 备份 vDS 配置信息
• Restore 指定配置文件恢复 vDS 配置信息
• Import 导出 vDS 备份信息蓝创建新配置文件
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档