Macer Park
プロジェクト 2 · 2025.06 – 2025.11

GPU VDI ベンチマーク自動化

Technical Support Engineer @ PuzzleSystems · Python, PyTorch, TensorFlow, VMware vSphere, PowerShell

課題

クライアントである SK E&S は、サブスクリプション型 GPU レンタルサービスのローンチ 前に、VMware の仮想 GPU(vGPU)環境の性能を検証する必要があった。主要な問い:同時 VM ワークロード下で GPU 性能はどのように低下するか? GPU 集約タスクを同時に実行可能な VDI セッションの最大数は? 長期ストレス時のリソース使用パターンはどう変化するか? 手動ベンチマークは時間がかかり、一貫性のない結果を生んでいた。

解決

自動 GPU ベンチマークパイプラインを構築した:

  1. ストレステストスクリプト:PyTorch と TensorFlow を使って現実の GPU ワークロード(行列演算、モデル学習、推論)を VMware vGPU 環境内でシミュレート
  2. 自動データ収集:GPU 使用率、メモリ、温度、throughput を設定可能な 間隔でキャプチャ
  3. 統計分析とレポート:蓄積データを処理し、トレンド分析を含む増分 レポートを生成

結果

ソースコードは前職の機密保持義務により保護されている。