プロジェクト 2 · 2025.06 – 2025.11

GPU VDI ベンチマーク自動化

Technical Support Engineer @ PuzzleSystems · Python, PyTorch, TensorFlow, VMware vSphere, PowerShell

課題

クライアントである SK E&S は、サブスクリプション型 GPU レンタルサービスのローンチ前に、VMware の仮想 GPU(vGPU)環境の性能を検証する必要があった。主要な問い:同時 VM ワークロード下で GPU 性能はどのように低下するか? GPU 集約タスクを同時に実行可能な VDI セッションの最大数は? 長期ストレス時のリソース使用パターンはどう変化するか? 手動ベンチマークは時間がかかり、一貫性のない結果を生んでいた。

解決

自動 GPU ベンチマークパイプラインを構築した:

ストレステストスクリプト：PyTorch と TensorFlow を使って現実の GPU ワークロード(行列演算、モデル学習、推論)を VMware vGPU 環境内でシミュレート
自動データ収集：GPU 使用率、メモリ、温度、throughput を設定可能な間隔でキャプチャ
統計分析とレポート：蓄積データを処理し、トレンド分析を含む増分レポートを生成

結果

SK E&S が GPU レンタルサービスをローンチするために用いた定量データを提供
数日がかりの手動テストサイクルを、無人の夜間実行に置き換え
vGPU 構成を変えても再現可能な結果

ソースコードは前職の機密保持義務により保護されている。