병렬 파일 시스템과 오브젝트 스토리지 구성하는 비용효율적 데이터 관리 ‘HCSF’

기업의 데이터는 점점 늘어나고 종류또한 확장되고 있다. 특히 데이터 분석이나 AI 등에 중요한 역할을 하는 비정형 데이터는 관리도 어려울 뿐 아니라 용량또한 기존의 정형 데이터에 비해 훨씬 크기 때문에 저장과 관리에 많은 문제가 발생하고 있으며, 이를 비용효율적으로 관리하기 위한 방안 마련에 많은 기업들이 고심하고 있다.


데이터가 새로운 비즈니스 모델의 개발이나 시장 경쟁력 강화, 고객 경험 향상, IT 인프라 비용 절감 등의 목적을 위해 활용되기 시작하면서 기업의 중요한 자산으로 분류되고 있으며, 이런 데이터를 저장하고 관리하기 위한 고성능 스토리지 시장 규모 또한 빠르게 성장하고 있다. 특히 제조, 통신, 금융 등 산업 전분야에 걸쳐 다양한 유형의 데이터를 한 곳에 통합, 저장, 분석할 수 있는 솔루션에 대한 요구가 증가하면서 데이터 레이크 시장이 각광을 받고 있다.

‘데이터 레이크’는 데이터 사일로(Silo)화 현상을 방지하고, 데이터 분석을 위한 다양한 종류의 데이터를 취합하는 ‘데이터 중앙 공급소’와 같은 역할을 하기 때문에 기업 데이터의 중요한 혁신수단으로 손꼽히고 있다. 그러나 진정한 데이터 레이크 구현을 위해서는 대규모 데이터 저장뿐 아니라 고성능 데이터 처리가 반드시 필요하다는 사실을 명심해야 한다.

티어링으로 비용효율 높은 고성능 데이터 레이크 구성하는 HCSF

데이터가 폭증하면서 분석해야 할 데이터의 양이 기하급수적으로 늘고 있다. NVMe 기반의 병렬 처리 시스템은 수십 기가바이트(GB) 이상의 데이터 처리를 위해 분석 환경을 최적화하고 폭증하는 데이터를 처리하는데 효과적이지만, 페타바이트(PB) 이상의 데이터를 저장하기에는 비용 부담이 높아지기도 한다.

또한, 대부분의 데이터는 초기에는 높은 액세스 빈도를 유지하지만, 시간이 지날수록 빈도가 낮아진다. 따라서 액세스 빈도가 낮아지는 데이터를 애플리케이션 성능에 영향을 주지 않고 티어링을 통해 더 저렴한 스토리지로 이동시킨다면 비용을 절감할 수 있다.

효성인포메이션시스템은 초고성능 병렬 파일시스템과 오브젝트 스토리지가 통합된 ‘HCSF(Hitachi Content Software for File)’를 통해 높은 성능과 대규모 확장성을 모두 제공하는 파일 스토리지를 선보이고 있다. 오브젝트 스토리지의 가용량과 클라우드 기능을 갖추면서도 분산 파일 시스템 속도를 제공하고, 파일과 오브젝트 프로토콜을 지원해 데이터 수집이 용이하다. 또한, 정책 기반 티어링 파일 시스템 운영으로 비용 효율적인 데이터 관리가 가능하다.


HPC 환경에 적합한 고성능 데이터 솔루션

효성인포메이션시스템의 HCSF는 NVMe 전용 병렬 파일시스템을 통해 고성능 IO 처리가 가능하고, 오브젝트 스토리지인 HCP(Hitachi Content Platform)와 결합해 웜/콜드 데이터를 티어링하고 파일 데이터를 무제한급으로 저장할 수 있다. 또한 HCP에 보관된 데이터는 퍼블릭 클라우드의 S3 호환 오브젝트 스토리지와 연동해 데이터 저장 영역을 타 클라우드로 확장할 수도 있다.

파일이 오브젝트 스토리지로 티어링되더라도 백엔드에서만 저장 위치가 바뀌기 때문에 스토리지를 사용하는 분석 애플리케이션에서는 이를 신경 쓸 필요가 없다. 만약 분석 애플리케이션이 웜/콜드 티어인 HCP의 데이터를 액세스 하고자 해도, 해당 데이터는 다시 핫 티어인 NVMe 스토리지로 즉시 이동해 서비스된다. 이 모든 과정은 사용자 입장에서 별도 작업 없이 자동으로 지원되기 때문에 빅데이터를 효과적으로 관리할 수 있다.

HCSF는 초고성능이면서 동시에 비용 효율적인 대용량 데이터 처리가 필요한 HPC 환경에 매우 적합한 솔루션이다. 높은 처리량과 IOPS, 매우 짧은 대기시간이 동시에 필요한 혼합 워크로드에 강하기 때문에 엑사바이트(EB) 규모의 확장성과 성능 향상을 제공할 수 있다.


AI, 제조 등 미션 크리티컬한 분야에서 활약

HCSF는 범용적인 고성능 분석 요건에 적합한 통합 솔루션이다. 성능과 확장성, 스케일아웃 관점에서 제한 없이 데이터를 공유하고 지원할 수 있다. HCSF는 국내외 헬스케어나 자율주행 시뮬레이션, 공공이나 금융 분야 등 다양한 산업에서 고성능 인프라로 자리매김하고 있다.

해외의 한 제조기업은 AI 모델 트레이닝을 위해 수천만 개의 다양한 크기의 파일을 처리할 수 있는 솔루션이 필요했다. 기존 올플래시 NAS와 GPU 서버의 로컬 NVMe 스토리지로는 AI 트레이닝 시스템의 요구 성능을 충족하기 어려웠기 때문이다. HCSF 도입 후 기존 올플래시 NAS 대비 10배, 로컬 NVMe 대비 3배 이상의 성능 개선 효과를 거두었으며, 비용 절감과 GPU 활용도 역시 기존 대비 3배 이상 향상되는 효과를 얻었다.

국내 한 제조기업은 데이터 인사이트 확보를 위해 실시간 대용량 데이터 분석 시스템을 구축하고자 했다. 데이터 운영 인프라 개선, 데이터 분석/활용 고도화, 거버넌스 도입 등의 목표를 갖고, AI/ML 기반의 분석기법 도입을 위해 HCSF를 선택했다. 이 기업은 HCSF 도입을 통해 고성능 스토리지 인프라를 구축함과 동시에 다양한 클라이언트 운영 환경을 쉽게 구성할 수 있었으며, 정책 기반 데이터 티어링 스토리지를 쉽게 구축했다. 이를 통해 매일 수백 페타바이트 규모의 데이터 분석 능력을 확보할 수 있었고, 동시에 데이터 증가나 분석 요건 변화에 유연하게 대응할 수 있게 됐다.

효성인포메이션시스템은 HCSF 도입이 활발해짐에 따라, 주요 데이터 플랫폼, DW 등 전문 벤더와의 협업을 늘리며 시너지 효과를 높이고 있다. 잘 구성된 기술지원 프로세스를 통해, 다양한 구축 사례와 경험 기반으로 원활한 운영을 지원한다. 또한, 대규모 제조 기업, 플랫폼, 통신 분야의 기업을 비롯해 대용량 데이터 처리와 저장이 필요한 공공기관, 금융사 등 다양한 산업에 HCSF가 활용될 수 있도록 적극적으로 비즈니스를 펼쳐 나갈 계획이다. 

데이터 17 스토리지 8 데이터레이크 1 데이터관리 1 효성인포메이션시스템 2 HCSF 1