Macer Park
프로젝트 2 · 2025.06 – 2025.11

GPU VDI 벤치마크 자동화

Technical Support Engineer @ PuzzleSystems · Python, PyTorch, TensorFlow, VMware vSphere, PowerShell

문제

클라이언트 SK E&S는 구독형 GPU 대여 서비스를 출시하기 전, VMware 가상 GPU(vGPU) 환경의 성능을 검증해야 했다. 핵심 질문은 이랬다. 동시 VM 워크로드에서 GPU 성능이 어떻게 저하되는가? GPU 집약 작업을 동시에 돌릴 수 있는 VDI 세션의 최대 수는? 장기 스트레스 구간에서 리소스 사용 패턴은 어떻게 변하는가? 수동 벤치마크는 시간이 오래 걸리고 결과 일관성이 떨어졌다.

해결

자동 GPU 벤치마크 파이프라인을 만들었다:

  1. 스트레스 테스트 스크립트: PyTorch와 TensorFlow로 실제 GPU 워크로드 (행렬 연산, 모델 학습, 추론)를 VMware vGPU 환경에서 시뮬레이션
  2. 자동 데이터 수집: GPU 사용률, 메모리, 온도, throughput을 설정 가능 간격으로 캡처
  3. 통계 분석 및 보고: 누적 데이터를 처리해 추세 분석이 포함된 증분 리포트 생성

결과

소스 코드는 이전 고용주의 비밀 유지 조항으로 보호된다.