- 소식
- 2025.02.05
고성능 컴퓨팅(HPC)은 시뮬레이션과 과학 연구, 데이터 분석, AI 모델 개발 등 컴퓨팅 리소스가 많이 사용되는 작업에 필수적인 전략입니다. 고성능 컴퓨팅을 운영하는 방식에는 △워크스테이션 △온프레미스 △퍼블릭 클라우드 △하이브리드 클라우드 등 다양한 방식이 있습니다.
HPC를 이용하고자 하는 조직, 특히 연구 및 분석, 모델 개발과 같은 분야에서는 순간적으로 대규모 컴퓨팅 리소스가 필요한 상황에 대비한 리소스 운용 방안을 신중히 고려해야 합니다. 온프레미스 환경만으로는 리소스 한계에 직면할 수 있기 때문에, 퍼블릭 클라우드와 같은 외부 자원을 활용하는 등의 방안이 효과적일 수 있습니다.
이렇듯 내부에 있는 온프레미스와 퍼블릭 클라우드를 모두 이용하고자 할 때, 하이브리드가 유용한 대안이 될 수 있습니다. 특히 HPC 하이브리드 클라우드를 단일 플랫폼으로 통합하여 이용할 경우 복잡한 운영 절차를 간소화하고 리소스 관리와 워크로드 최적화를 통해 전반적인 효율성을 극대화할 수 있습니다.
일반적인 HPC 하이브리드 환경의 한계점작업 수행 플랫폼의 이질성대부분의 하이브리드 클라우드 환경은 온프레미스(자체 데이터 센터)와 퍼블릭 클라우드(AWS, Azure 등)가 별도의 플랫폼으로 운영됩니다. 이로 인해 사용자는 두 플랫폼 각각에서 별도로 작업을 수행해야 하며, 데이터 이동과 관리가 복잡해집니다.
리소스 관리의 비효율성연구 작업 중 온프레미스 리소스가 부족할 경우 퍼블릭 클라우드로 확장해서 리소스를 버스팅(Bursting)해야 하는데, 이 과정에서 자원을 최적화하여 사용하기 어려운 경우가 많습니다. 더불어 자원의 할당, 데이터 동기화, 워크로드 전환 등을 수동으로 해야 해서 많은 시간과 노력이 필요합니다.
자원 할당의 복잡성: 워크로드의 특성과 자원 요구 사항을 정확히 파악하여 필요한 인프라를 설정해야 하고, 각각의 컴퓨팅 환경이 다를 경우 추가적인 설정 작업이 필요합니다. 데이터 동기화의 어려움: 연구 작업의 데이터는 일반적으로 온프레미스에 저장되기 때문에, 이를 퍼블릭 클라우드로 전송해야 하며, 이 과정에서 데이터 크기가 크거나 전송 네트워크가 느릴 경우 작업 시작까지 지연이 발생하게 됩니다. 워크로드 전환의 비효율성: 온프레미스에서 실행 중이던 작업을 퍼블릭 클라우드로 전환하려면, 사용 중인 애플리케이션, 라이브러리, 컨테이너 등 환경 설정을 동일하게 복제해야 합니다. 이 과정에서 사용자(개발자/연구자 등)의 숙련도에 따라 설정 오류가 발생할 수 있으며, 작업 전환에 더 많은 시간이 소요될 수 있습니다.
운영의 복잡성두 플랫폼을 통합 관리하려면 중앙 관리 도구를 사용해야 하지만, 실제 작업 과정에서는 여전히 개별 플랫폼의 특성을 이해하고 조작해야 하는 번거로움이 존재합니다. 온프레미스와 퍼블릭 클라우드 각각의 관리 도구와 프로세스가 달라서 사용자 및 관리자는 두 가지 시스템을 동시에 숙지해야 하며, 이슈 발생 시 각각의 업체에 연락하여 문제를 해결해야 합니다.
단일 플랫폼의 HPC 하이브리드 클라우드를 이용해야 하는 이유유연한 리소스 확장HPC를 사용하는 조직에서는 리소스가 언제나 일관적으로 사용되기보다 작업에 따라 리소스의 양이 달라지게 됩니다. 순간적으로 대규모의 컴퓨팅 리소스가 필요한 경우에는 온프레미스 내의 자원만으로 진행하기에 작업 지연 및 업무 효율성 저하와 같은 한계점에 도달하게 됩니다. 이때 퍼블릭 클라우드 자원을 활용하면 온프레미스에서 부족한 자원을 빠르게 보완할 수 있습니다. 특히 이러한 자원의 운용이 하나의 플랫폼에서 이용될 경우 작업자의 부담을 최소화할 수 있으며 작업에 대한 진행 효율을 향상시킬 수 있습니다.
비용 효율성하이브리드 클라우드를 이용할 경우 필요한 만큼의 자원만 퍼블릭으로 사용할 수 있고, 작업이 완료되면 자원을 중지할 수 있어 온프레미스를 추가 도입하는 것 대비 비용 절감이 가능합니다. 특히 단일 플랫폼에서 하이브리드 클라우드를 이용하게 될 경우 온프레미스와 퍼블릭 클라우드 자원의 사용을 한 번에 모니터링하고 퍼블릭 클라우드 비용을 제한하는 등의 관리할 수 있어 편의성과 효율성이 향상됩니다.
유지보수 효율화온프레미스와 퍼블릭 클라우드를 각각 이용하는 것이 아니라 통합되어 있는 하이브리드 클라우드를 이용하면 이슈 발생 시 개별 업체가 아닌 하나의 업체와 소통하면 되기 때문에 일정 조율 및 유지보수·관리가 간편해집니다.
아렌티어 HPC 하이브리드의 효용성 – 단일 플랫폼의 장점온프레미스/퍼블릭 클라우드 자원 선택 및 작업의 자원 전환클루닉스가 제공하는 HPC 통합 솔루션 아렌티어는 온프레미스와 퍼블릭 클라우드를 단일 플랫폼 내에서 클릭만으로 선택하여 이용할 수 있습니다. 사용하려는 자원 간의 플랫폼을 이동하거나 데이터를 연동하는 작업을 진행하지 않아도 되어 효율성이 높아집니다.
[그림 1] 아렌티어 - 작업 제출 시 자원 선택더불어 이미 온프레미스로 제출한 작업의 대기 시간이 길어질 경우, 퍼블릭 클라우드 자원으로 즉시 전환하여 진행할 수 있어 작업의 대기 시간을 최소화하고 연구 몰입도를 저하시키지 않을 수 있습니다.
[그림 2] 아렌티어 - 퍼블릭 작업 전환사용자는 관리자가 지정한 요금을 기준으로 퍼블릭 자원을 사용할 수 있으며, 만약 설정한 비용보다 초과하여 사용하게 될 경우 즉시 종료하거나 관리자 확인 후 종료하는 옵션을 선택할 수 있습니다. 이러한 비용 제어 기능을 통해 과도한 비용의 사용을 방지합니다.
통합 모니터링으로 관리의 효율화단일 플랫폼 내에서 온프레미스와 퍼블릭 클라우드 리소스의 모니터링이 가능하여 자원을 효율적으로 사용할 수 있습니다. 사용자는 CPU, GPU 등의 자원 현황과 작업 스케줄러 현황을 한 눈에 확인할 수 있으며, 관리자는 자원 및 작업 스케줄러뿐 아니라 라이선스와 프로세스 모니터링까지 가능합니다.
[그림 3] 아렌티어 - 사용자 통합 모니터링 화면
자동화된 데이터 동기화온프레미스의 데이터 스토리지와 퍼블릭 클라우드 스토리지 간의 데이터가 자동 동기화되어 별도의 데이터 전송 프로세스가 필요하지 않습니다. 데이터 무결성과 접근성을 보장하여 로컬 리소스와 클라우드 기반 리소스 간의 작업을 원활하게 전환할 수 있도록 합니다. 이를 통해 조직은 자체 인프라의 안정성과 보안을 유지할 수 있습니다.
클루닉스는 사용자의 편의성을 우선적으로 생각하여 업무의 효율성을 최대화할 수 있는 솔루션을 제공합니다. 궁금한 점이 있다면 언제든지 문의해주시기 바랍니다.
|
★ 함께 보면 좋은 IT트렌드
|
|
- 이전글
- 다음글