온프레미스 환경 생성AI 구현 최적 솔루션 ‘sLLM’

생성AI가 IT 업계를 좌우하는 거대한 기술 트렌드로 자리잡음에 따라, 생성AI의 기반이 되는 LLM에 대한 관심 또한 따라서 올라가고 있다.

생성AI는 마치 사람처럼 자연어를 기반으로 고객과 소통하고 상호작용하면서 지금까지 소비자들이 느끼지 못했던 완전히 개인화된 서비스를 제공받을 수 있는 기반이 되고 있으며, 이외에도 이미지나 영상, 음악, 각종 콘텐츠나 심지어 소스코드에 이르기까지 다양한 영역에서 사람을 대체하고 자동화해 나가고 있다.

그리고 이런 생성AI를 이루는 근간에는 LLM(Large Language Model)이 자리잡고 있다. LLM은 천문학적인 데이터와 수십억 개 이상의 변수를 이용해 학습하고, 이를 기반으로 실시간에 가까운 추론 작업을 통해 초개인화된 맞춤형 제안과 서비스를 제공하는 것이다.



훈련 비용과 시간 절감

생성AI 서비스를 기업에서 활용하는 방법은 크게 두 가지다. 첫 번째 고려할 수 있는 방법은 자체적으로 LLM을 구현하는 것이다. 이는 GPT, BERT, PaLM, LaMDA, DALL-E 같은 FM(Foundation Model)을 엔비디아(NVIDIA) SuperPOD 같은 강력한 GPU 기반 컴퓨팅 인프라를 기반으로 직접 훈련과 최적화를 하는 접근법이다. 파운데이션 모델을 이용할 경우 비즈니스 목적에 맞게 해야 할 작업들이 매우 많다. 이런 이유로 시간과 비용이 많이 든다. 이 전략은 예산, 인력 그리고 방대한 내부 데이터를 보유한 조직에게 알맞다고 볼 수 있다.

양질의 데이터를 보유한 경우 파운데이션 모델보다 비즈니스 목표에 맞게 사전 최적화된 경량화된 모델을 이용하는 것이 더 유리하다. 이런 이유로 최근 많은 조직이 sLLM(small Large Language Model, 소형 언어 모델)에 대한 관심을 보이고 있다. sLLM은 기존 LLM에 비해 변수의 수가 60억(6B) 내지 100억(10B) 개로 적은 LLM을 지칭한다.

sLLM은 훈련을 위한 소요 비용이나 시간을 절감할 수 있으며, 다른 애플리케이션과 통합하기 쉽다. 또한, 기업이 기존 보유한 데이터 활용하여 맞춤형으로 구축하기 수월하여 효율성이 좋다는 이점이 있다. 이러한 이유로 기업에서 저마다의 언어 모델과 이를 기반으로 질문 응답 챗봇을 구축할 수 있어 각광받고 있다.

sLLM이 각광을 받는 이유는 크게 두 가지다. 첫 번째는 비용이다. 파인튜닝된 LLM 모델을 서비스 방식으로 사용하는 것도 비용이 많이 든다. 또한, 파인튜닝을 위한 데이터 엔지니어링 관련 역량 확보와 데이터 관리 부담도 크다. 이런 문제를 해결하기 위해 등장한 것이 PEFT(Parameter-efficient fine tuining), SuperICL(Super In-Context Learning)과 같은 아이디어다. 모두 적은 수의 파라미터를 학습하는 것 만으로 LLM 모델 전체를 파인튜닝하는 것 못지 않은 효과를 거두기 위한 아이디어다.

두 번째 이유는 오픈AI처럼 파운데이션 모델의 가중치를 공개하지 않는 블랙박스 방식의 모델의 폐쇄성에 대한 우려다. 파운데이션 모델을 개발하는 기업이 폐쇄형 전략을 택할 경우 조직의 개발자는 모델이 어떻게 작동하는지 이해하기 어려울 수 있다. 이로 인해 모델을 디버깅하고 잠재적인 편향성을 파악하기가 어려울 수 있다. 또한, 폐쇄적인 전략은 모델을 다른 시스템과 통합하기 어렵게 만들 수도 있다. 이런 이유로 블랙박스 모델의 대안으로 사용할 수 있는 다양한 오픈 소스 모델이 주목받고 있다.

최근 각각의 용도(Task)에 최적화된 sLLM이 속속 등장하고 있어 선택지가 확대되고 있다. 주목받고 있는 소형 언어 모델로는 LLaMA 계열(4가지 버전(6.7B, 13B, 32.5B, 65.2B))의 스탠포드 대학교의 '알파카 7B(Alpaca-7B)', 'Vicuna-13B', Nomic AI의 'GPT4All'(7B) 등이 있다.

LLaMA-7B 모델을 파인튜닝해 만들어진 알파카 7B는 70억 개의 매개변수를 사용하는 sLMM이다. 5만 2000개의 데이터를 파인튜닝해 만들어졌으며, 스탠포드 대학교에 따르면 예비 데이터 세트로 측정했을 때 오픈AI의 text-davinchi-003(GPT 3.5)와 비슷한 성능을 제공한다고 전하고 있다.

메타(Meta)의 LLaMA와 스탠포드의 알파카에 영감을 받아 UC 버클리, UCSD, CMU, MBZUAI(MohamedBin Zayed Univ. of AI)가 공동으로 개발한 Vicuna-13B는 ShardGPT로부터 수집 된 사용자들의 대화로 LLaMA를 파인튜닝한 모델이다. ShardGPT는 사용자 프롬프트와 ChatGPT의 해당 답변 결과를 서로 공유할 수 있는 웹사이트다.

정보 지도 제작 기업인 Nomic AI가 만든 GPT4All’(7B)는 LLaMA-7B 모델을 파인튜닝해 만들어졌다. 프롬프트 생성 쌍을 위해 GPT3.5-turbo 모델을 사용했고 4비트 양자화(Quantization)와 LoRA를 적용했다.

온프레미스 환경 비용효율적 생성AI 인프라 구축

온프레미스 환경에 엔비디아 DGX H100이나 HGX H100 서버 한 대를 배치하면 sLMM을 활용해 생성AI를 사내 업무와 대외 고객 서비스에 발빠르게 적용할 수 있다. 기업은 초기 투자나 지속적인 서비스 이용 요금 부담 없이 모델 탐색, 데이터 준비, 훈련/파인튜닝 과정을 온프레미스 환경에 마련할 수 있다.


데이터 과학자나 AI 개발자는 비즈니스 요구에 맞는 sLLM을 엔비디아 NGC 카탈로그, 허깅페이스(Hugging Face) 모델 허브 등에서 편리하게 탐색할 수 있다. 용도에 맞는 적합한 라이선스의 sLLM을 다운로드 받은 다음 데이터 엔지니어의 도움을 받아 필요 데이터를 준비한다. 그리고 엔비디아 DGX H100이나 HGX H100 서버를 사용해 모델 훈련과 파인튜닝을 수행하면 거대 AI 인프라나 고가의 클라우드 서비스를 이용하지 않고도 조직의 생성AI 전략을 지원할 수 있다.

초기 투자 부담 줄이고 비즈니스에 빠르게 접목

엔비디아 DGX H100이나 HGX H100 서버를 이용해 sLLM을 최적화하면 초기 투자 부담 없이 바로 생성AI를 비즈니스에 접목할 수 있다. 또한 sLLM을 활용하는 전략을 택하면 AI 인프라 초기 투자 비용 부담을 크게 줄일 수 있다. 더불어 엔비디아 GPU 기반 서버와 함께 엔비디아 AI 엔터프라이즈 플랫폼을 도입하면 전문 지식이 없어도 sLLM 훈련, 최적화, 서비스 제공이 가능하다.


서비스, 의료, 교육 등 도메인 특화 sLLM을 활용한 생성AI 전략이 주류로 떠오르고 있는 가운데, 많은 조직이 작은 모델을 미세 조정해 대형 모델과 거의 동일한 성능을 얻고 있다. 이것이 가능한 이유는 sLLM을 활용하면 조직이 보유한 데이터로 모델을 최적화할 수 있기 때문이다. 이렇게 목적에 맞게 도메인 특화 모델을 만들어 생성AI 전략을 가속할 수 있다.

데이터 17 생성AI 2 AI 9 온프레미스 2 인공지능 3 LLM 1 거대언어모델 1 sLLM 1 엔비디아 1 유클릭 1