AI, Big-Data

Machine Learning/Deep Learning
다중GPU기반 머신러닝 클러스터링 인프라 구축

AWS for TensorFlow GPU Cloud 

머신러닝 클러스터링 워크로드

hw_1920x300.jpg

보유 솔루션

​구축 방안

다중 GPU 기반 Machine Learning Clustering PoC 사례입니다. White-list의 인가된 사용자가 VNC 서버로 접근하여 LDAP을 통해 AD 인증을 받고 Tensorflow GPU 서버로 작업을 분배합니다. 작업이 끝난 결과물은 EFS에 저장되어 열람이 가능합니다. PoC는 GPU 서버 두 대로 진행되었지만, Autoscaling 설정 시 GPU 서버가 작업에 맞게 scale-in, out이 가능합니다.

ex) GPU Clustering for Machine Learning

AWS Cloud 환경에서 Tensorflow GPU를 클러스터링 워크로드

img-tensorflow.png

1

White-list 기반 접속으로 신뢰하는 사용자만 접근

2

LDAP 사용자 계정으로 VNC WEB에서 VNC WAS 세션으로 로그인

3

VNC WAS를 통해 GPU 서버로 JOB을 제출, 리소스에 맞게 자동 scale-in, out

4

JOB의 결과물은 마운트 된 EFS 내부에 저장

서비스문의 : 클라우드팀 담당자
전화번호 : 02-704-2077
이메일 : ezcloud@ezcom.co.kr