프로젝트 2 · 2025.06 – 2025.11
GPU VDI 벤치마크 자동화
Technical Support Engineer @ PuzzleSystems · Python, PyTorch, TensorFlow, VMware vSphere, PowerShell
문제
클라이언트 SK E&S는 구독형 GPU 대여 서비스를 출시하기 전, VMware 가상 GPU(vGPU) 환경의 성능을 검증해야 했다. 핵심 질문은 이랬다. 동시 VM 워크로드에서 GPU 성능이 어떻게 저하되는가? GPU 집약 작업을 동시에 돌릴 수 있는 VDI 세션의 최대 수는? 장기 스트레스 구간에서 리소스 사용 패턴은 어떻게 변하는가? 수동 벤치마크는 시간이 오래 걸리고 결과 일관성이 떨어졌다.
해결
자동 GPU 벤치마크 파이프라인을 만들었다:
- 스트레스 테스트 스크립트: PyTorch와 TensorFlow로 실제 GPU 워크로드 (행렬 연산, 모델 학습, 추론)를 VMware vGPU 환경에서 시뮬레이션
- 자동 데이터 수집: GPU 사용률, 메모리, 온도, throughput을 설정 가능 간격으로 캡처
- 통계 분석 및 보고: 누적 데이터를 처리해 추세 분석이 포함된 증분 리포트 생성
결과
- SK E&S가 GPU 대여 서비스를 출시할 수 있도록 정량 데이터 제공
- 수일짜리 수동 테스트 사이클을 무인 야간 실행으로 전환
- vGPU 구성을 바꿔도 재현 가능한 결과 제공
소스 코드는 이전 고용주의 비밀 유지 조항으로 보호된다.