아렌티어 고객 사례를 소개합니다.

KR
KR EN JP
SEARCH
인사이트
AI 인프라 확장보다 중요한 GPU 최적화 방법에 대해
  • 소식
  • 2024.08.29

 

 

AI 기술이 급격히 발전하면서, 기업들은 AI 인프라 확장에 많은 관심을 쏟고 있습니다. 더 많은 데이터를 처리하고, 더 복잡한 모델을 학습시키기 위해서는 강력한 컴퓨팅 자원이 필요하기 때문입니다. 하지만 인프라 확장만으로는 AI 성능을 극대화하기 어렵습니다. 한 설문조사에 따르면 경영진 중 93%가 컴퓨팅 리소스를 자체적으로 활용할 수 있다면 AI 팀의 생산성이 크게 향상될 것이라고 믿고 있다고 합니다.

 

이처럼 인프라를 효과적으로 사용하기 위해서는 자원을 어떻게 하면 더욱 잘 활용할 수 있는지에 대한 고찰과 그에 맞는 방안을 찾는 것이 매우 중요합니다. 고가의 고성능 자원들을 효과적으로 활용하지 못한다면, 인프라를 확장한 만큼의 효과성을 보지 못할 가능성이 높습니다. 이번 글에서는 AI 인프라 확장의 필요성과 당면 과제, 그리고 GPU 자원의 최적화 방안에 대해 알아보겠습니다.

 

 

AI 인프라 확장의 필요성과 당면 과제

 

AI 시스템이 복잡해짐에 따라 인프라 확장은 필수가 되었습니다. 특히 대규모 데이터 처리와 모델 학습을 위해서는 더 많은 컴퓨팅 파워가 필요합니다. AI 모델에 대한 연구개발이 활발하게 진행되고 있는 만큼, 많은 기업들은 AI 인프라 확장에 투자하고 있습니다. IDC는 2024년 전 세계 생성형 AI 지출의 약 절반이 디지털 인프라 구축에 사용될 것이라고 언급하며 AI를 위한 전 세계 인프라 시장(서버 및 스토리지)은 2022년 281억 달러 규모에서 2027년 570억 달러로 약 2배 성장할 것으로 전망했습니다.

 

더불어 북미, 유럽, 아시아 태평양 전역에 걸쳐 1000개 기업을 조사한 ‘2024년 AI 인프라 현황’ 보고서에 따르면 응답자의 96%가 가용성, 비용, 인프라 문제를 염두에 두고 AI 컴퓨팅 인프라를 확장할 계획을 갖고 있다고 답했습니다. 또한 이 중 40%는 온프레미스를, 60%는 클라우드를 우선순위로 고려하고 있으며 유연성과 속도를 놓고 고심하고 있는 것으로 나타났습니다.

 

그러나 온프레미스와 클라우드 등 인프라를 어떠한 방식으로 구축할 것인지를 떠나서, 단순히 인프라를 확장하는 것만으로는 문제를 해결할 수 없다는 것을 알아야 합니다. 이미 갖춰져 있는 인프라를 정말 잘 사용하고 있었는지에 대한 점검이 필요하고, 인프라 확장에 대한 결정 이후에도 확장된 인프라를 효율적으로 운영하기 위한 자원 활용 최적화 방안에 대해서도 고려했는지 검토해봐야 합니다.

 

 

GPU 최적화 방법 3가지

 

방안 1. GPU 스케줄링

 

GPU는 AI 학습 및 추론 작업에서 중요한 역할을 합니다. 그러나 여러 작업이 동시에 실행되는 환경에서는 GPU의 효율적인 활용이 어려울 수 있습니다. 이때 GPU 스케줄링이 중요한 역할을 합니다. 앞선 보고서에 따르면 대기열 내의 작업을 보고 관리하며 GPU 활용도를 효과적으로 최적화하는 기능을 지원하는 스케줄링 도구를 보유했다는 응답자는 19%에 불과했습니다.

 

GPU 스케줄링은 여러 작업이 GPU 자원을 최대한 효율적으로 사용할 수 있도록 조정하는 과정입니다. 이를 통해 GPU 자원의 낭비를 줄이고, 작업의 처리 속도를 높일 수 있습니다. 따라서 GPU 스케줄링은 AI 인프라의 성능 최적화에 있어 핵심적인 요소라 할 수 있습니다.

 

방안 2. GPU 파티셔닝을 통한 자원 분배

 

GPU 자원을 최적화하는 또 다른 방법은 GPU 파티셔닝입니다. 이는 단일 GPU를 여러 작업에 분할하여 할당하는 기술입니다. 이를 통해 GPU 자원의 활용도를 극대화할 수 있으며, 특정 작업에 GPU 자원을 집중 투입할 수 있습니다. 앞선 보고서에 따르면 다이내믹 MIG나 GPU 파티셔닝 기능을 관리할 수 있는 능력을 보유한 기업은 42%에 그쳤습니다.

 

GPU 파티셔닝으로 유명한 기술은 바로 엔비디아의 MIG 기술입니다. A100, H100 등의 GPU를 분할하여 사용함으로써 단일 GPU에서 추론, 트레이닝, 고성능 컴퓨팅(HPC) 워크로드를 동시에 실행할 수 있어 더욱 유연한 활용이 가능합니다. 또한 MIG 인스턴스는 동적으로 재구성할 수 있어, 관리자는 변화하는 사용자 및 비즈니스 수요에 대응하여 GPU 리소스를 전환할 수 있습니다.

 

MIG 자세히 알아보기 : https://www.clunix.com/insight/it_trends.php?boardid=ittrend&mode=view&idx=759

 

GPU 파티셔닝은 특히 여러 AI 모델을 동시에 학습시키거나, 여러 사용자가 동일한 인프라를 공유하는 환경에서 매우 유용합니다. 이를 통해 보유하고 있는 AI 인프라의 효율성을 크게 향상시킬 수 있습니다.

 

방안 3. 유휴 GPU 자원의 활용

 

사용자가 없을 때에는 GPU 자원이 유휴 상태로 남아있는 경우가 종종 발생하는데, 이는 연간 수백만 달러의 비용 낭비로 이어질 수 있습니다. 이러한 낭비를 줄이기 위해서는 유휴 자원이 발생하는지 확인할 수 있는 실시간 모니터링과 여러 사용자에게 할당하는 등의 적절한 리소스 관리가 필요합니다.

 

컨테이너 기반의 환경을 이용할 경우 다수의 컨테이너가 단일 GPU를 공유할 수 있습니다. 다수의 컨테이너에서 실행되는 GPU 작업을 다중 프로세스 방식으로 동시에 실행할 수 있기 때문에 GPU 자원의 활용률을 높일 수 있는 것입니다. 이러한 방법들을 통해 유휴 자원을 최소화하고, 인프라 운영 비용을 절감할 수 있습니다.

 

 

GPU 최적화도 편리하게 하는 방법

 

웹 UI 기반의 환경 제공, 아렌티어

 

GPU 최적화를 위한 노력을 조금 더 편리하게 할 수 있는 방안이 있습니다. 바로 웹 기반의 직관적인 화면을 통해 확인 및 사용하고 관리하는 것입니다. 특히 앞서 살펴봤던 ‘GPU 최적화 방안’에 대한 3가지를 모두 웹 화면으로 이용할 수 있다면 데이터를 처리하고 시각화하는 등의 작업을 줄이고 시간을 확보할 수 있습니다. HPC 분야에서 20년 이상의 경력을 쌓아 온 클루닉스는 <아렌티어 딥러닝> 솔루션 제공을 통해 고객의 AI 개발 환경이 더 나아질 수 있도록 노력합니다.

 

아렌티어는 모든 개발 환경을 웹 기반으로 제공합니다. 개발 시 필요한 컨테이너 혹은 가상머신(VM)을 생성하는 것을 누구나 쉽고 간편하게 진행할 수 있으며, 이때 리눅스·커맨드·컴퓨팅 등의 전문 지식을 요구하지 않습니다.

 

또한 작업 스케줄링과 MIG 기능, 유휴 자원 자동 회수, 자원 재할당(Rerun) 등의 다양한 편의 기능을 통해 사용자가 할당된 GPU 자원을 더욱 효율적으로 사용할 수 있도록 도우며, 세분화된 각 자원의 상세한 모니터링을 통해 관리적인 측면에서도 효과성을 확보할 수 있습니다.

 

   

(좌) 아렌티어 딥러닝 웹 화면  (우) 아렌티어 딥러닝 모니터링 화면

 

 

맺으며

 

AI 인프라의 확장은 중요한 과제이지만, 그보다 중요한 것은 기존 자원을 최대한 효율적으로 활용하는 것입니다. 특히 GPU와 같은 고성능 자원의 최적화는 AI 시스템의 성능을 좌우하는 핵심 요소입니다. GPU 스케줄링, 파티셔닝, 유휴 자원의 활용 등 다양한 최적화 기법을 통해 AI 인프라의 효율성을 높일 수 있습니다. 이러한 GPU 최적화를 위한 노력이야말로 AI 성능을 극대화하고, 과도하게 집행되는 비용을 절감하는 가장 효과적인 방법이라 할 수 있습니다.

 

AI 개발 환경에 관해 궁금한 점이 있다면 클루닉스에 문의해보시기 바랍니다. 

 

[아렌티어 딥러닝 소개서 中]

 

 

[참고자료]

1) https://www.gttkorea.com/news/articleView.html?idxno=9441

2) https://www.giikorea.co.kr/report/moi1406105-ai-infrastructure-market-share-analysis-industry.html

3) https://www.ciokorea.com/news/339483

4) https://www.nvidia.com/ko-kr/technologies/multi-instance-gpu/

5) 「GPU를 공유하는 컨테이너 환경에서 GPU 작업의 동시 실행을 위한 GPU 자원 경쟁 관리기법」

 

 

    ★ 함께 보면 좋은 IT 트렌드

 

    - 하이브리드 HPC 플랫폼을 통한 R&D의 혁신 : 아렌티어 하이브리드

 

    - HPC와 GPU의 결합 : AI 애플리케이션을 위한 새로운 잠재력 발휘

 

    - 온프레미스 vs 클라우드 : AI 개발의 최적 환경 선택 가이드

 

 
 
클루닉스 뉴스레터
받아보세요!
클라우드, HPC, 인공지능 (AI) 등의
트랜드 뉴스를 매주 만나보세요. 뉴스레터 구독하기
퀵메뉴 모바일 여닫기 한단 아래로 맨 위로

현재 브라우저에서는 지원하지 않는 사이트입니다. 아래의 다른 브라우저를 다운받아 사용해주세요.