プロジェクト 2 · 2025.06 – 2025.11
GPU VDI ベンチマーク自動化
Technical Support Engineer @ PuzzleSystems · Python, PyTorch, TensorFlow, VMware vSphere, PowerShell
課題
クライアントである SK E&S は、サブスクリプション型 GPU レンタルサービスのローンチ 前に、VMware の仮想 GPU(vGPU)環境の性能を検証する必要があった。主要な問い:同時 VM ワークロード下で GPU 性能はどのように低下するか? GPU 集約タスクを同時に実行可能な VDI セッションの最大数は? 長期ストレス時のリソース使用パターンはどう変化するか? 手動ベンチマークは時間がかかり、一貫性のない結果を生んでいた。
解決
自動 GPU ベンチマークパイプラインを構築した:
- ストレステストスクリプト:PyTorch と TensorFlow を使って現実の GPU ワークロード(行列演算、モデル学習、推論)を VMware vGPU 環境内でシミュレート
- 自動データ収集:GPU 使用率、メモリ、温度、throughput を設定可能な 間隔でキャプチャ
- 統計分析とレポート:蓄積データを処理し、トレンド分析を含む増分 レポートを生成
結果
- SK E&S が GPU レンタルサービスをローンチするために用いた定量データを提供
- 数日がかりの手動テストサイクルを、無人の夜間実行に置き換え
- vGPU 構成を変えても再現可能な結果
ソースコードは前職の機密保持義務により保護されている。