기업용 AI를 위한 인텔의 '확장 가능한 시스템' 공개

[현장] 인텔, ‘인텔 비전 2024’의 발표 내용 및 네이버클라우드 협력 전반 소개
대규모 AI 컴퓨팅 위해 설계된 가우디 3 가속기, 엔비디아 H100보다 추론 처리량 50%↑

 

[더테크=전수연 기자] 인텔(Intel)이 8~9일(현지시간) 미국 애리조나에서 개최된 ‘인텔 비전 2024’의 발표 내용 및 네이버클라우드와의 가우디(Gaudi) 기반 협력 전반을 공유했다. 특히 모든 AI 부문에 적용 가능한 시스템과 기업용 AI를 공개했다.

 

인텔은 서울 영등포구 전경련 회관 루비홀에서 ‘인텔 비전(Intel Vision) 미디어 간담회’를 11일 진행했다.

 

본 행사에 앞서 스크립트를 통해 하정우 네이버클라우드 AI 혁신센터장은 “네이버는 혁신적이고 안전한 멀티모달 LLM 학습 모델을 개발하고 배포하려는 비전을 가지고 있다”며 협력 계기를 언급했다.

 

네이버클라우드는 생성형 AI 모델과 애플리케이션을 개발·관리하기 위해 스타트업, 학계를 포함한 공동 랩을 만들어 연구를 추진하고 가우디 소프트웨어 생태계를 확장한다. 또 가우디 2를 테스트하고 평가 결과로 LLM 학습 인프라 구축에 적용할 예정이다.

 

이와 함께 LLM 학습 인프라의 상업용 클라우드 인스턴스를 글로벌 기업 고객에게 제공해 생성형 AI 시대를 위한 경쟁력과 혁신을 지원한다.

 

하 센터장은 “네이버는 대규모 트랜스포머 모델(large-scale Transformer models)의 컴퓨팅 작업 실행에서 가우디의 기본 역량을 확인했다”며 “가우디는 AI 전용 설계를 통해 뛰어난 와트당 성능, TCO(총 소유 비용)를 제공할 수 있다”고 말했다.

 

이어서 이동수 네이버클라우드 박사는 인텔과 네이버의 협력 관련 질의응답을 진행했다.

 

제온과 가우디가 RAG(Retrieval-Augmented Generation, 검색 증강 생성)을 어떻게 사용했는지에 대한 질문에 이 박사는 “RAG 같은 가우디 본연의 성능을 우선 생각했고 시너지 효과, 인텔 고유의 특성은 차차 발굴할 예정”이라며 “이번 협력은 기존 AI 반도체에서 없었던 특징을 찾을 것으로 기대하고 있다”고 답했다.

 

또 AI 인프라 구축 시 가우디를 포함한 학습·추론용 엣지 만의 강점에 대해 이 박사는 “네이버가 긍정적으로 본 부분은 같은 전력 대비 성능이 높아지는 부분”이라며 “성능이 좋아진 점과 폭넓은 데이터센터 운영 경험도 구동 관점에서 차별성이 있다고 판단했다”고 전했다.

 

인텔 비전 2024 발표 내용은 나승주 인텔코리아 상무의 브리핑으로 공유됐다. 그는 “이번 행사에서 현재 기업용 AI를 제공하는 데에 인텔의 역할이 무엇인지가 다뤄졌다”고 말했다.

 

나 상무는 “기업용 AI가 무엇이고 어떤 것이 필요한지 인텔뿐만 아니라 산업계에서 관심을 가지고 있다”며 “다만 기업 측면에서 AI를 활용하는 것이 중요한 갈림길이 되고 있다. 실제로 생성형 AI 솔루션을 사용하는 비율은 낮은 편”이라고 설명했다.

 

이를 위해 인텔은 확장 가능한 시스템 개발 전략을 수립했으며 여러 고객이 실제 사용한 사례를 수집했다.

 

인텔 가우디 3 AI 가속기는 공통 표준을 따르는 이더넷을 통해 최대 수만 개의 가속기를 연결하고 AI 시스템을 구동한다. 엔비디아(NVIDIA) H100과 비교해 가우디 3는 130억개의 매개변수가 있는 라마2(Llama2) 모델과 GPT-3 1750억개 매개변수 모델 전체에서 평균 50% 빠른 학습 시간을 제공할 것으로 예상된다.

 

가우디 3 가속기 추론 처리량은 평균 H100보다 50%, 전력 효율성의 경우 라마 매개변수와 팔콘(Falcon) 1800억개 매개변수 모델에서 평균 40% 더 우수할 것으로 예상된다. 또 개방형 커뮤니티 기반 소프트웨어와 업계 표준 이더넷 네트워킹을 제공한다.

 

기업은 싱글 노드에서 클러스터, 슈퍼 클러스터, 수천 개의 노드가 있는 메가 클러스터로 유연한 확장과 추론, 파인 튜닝이 가능하다.

 

나 상무는 “RAG과 파인 튜닝 관점에서 더 쉬운 사용을 위해 요소, 컴포넌트를 재구성할 수 있는 구조가 중요하다”며 “인텔과 파트너들은 긴밀히 협력해 효율적인 운영을 위한 오픈 기반을 마련하고 있다”고 설명했다.

 

실제로 인텔 비전에서 팻 겔싱어(Pat Gelsinger) 인텔 CEO가 쿼리를 입력했을 때 답변과 RAG 기반의 GPT에서의 답변 품질 차이가 나타났다. 나 상무는 “중요한 점은 기업이 보유한 인프라 생태계 데이터가 새롭게 선택되는 하드웨어와 연결돼야 한다”고 강조했다.

 

인텔과 협력한 기업 중 랜딩 AI(Landing AI)는 세포 분류, 암 감지에 활용되는 분야별 대규모 비전 모델을 파인 튜닝했다. 로보플로우(Roboflow)는 엔드 투 엔드 컴퓨터 비전 플랫폼을 위해 YOLOv5, YOLOv8, CLIP, SAM, ViT 모델의 생산 워크로드를 실행했다.

 

이 외에도 보쉬(Bosch)는 자사 기반 모델 개발을 포함한 스마트 제조의 가능성을 모색하고 합성 데이터 세트 생성과 함께 자동 광학 검사와 같은 분산된 트레이닝 세트를 제공했다. IBM은 인텔 제온 프로세서를 적용하고 플랫폼에 인텔 가우디 가속기를 검증했다.

 

대규모 AI 컴퓨팅을 위해 설계된 가우디 3 가속기는 5나노미터(mm) 공정으로 제조되며 이전 제품보다 향상된 성능을 제공한다. MME(Matrix Multiplication Engine), 텐서 프로세서 코어(TPC), 네트워킹 인터페이스 카드(NIC) 등 모든 엔진을 병렬로 활성화할 수 있도록 설계돼 딥러닝 연산, 확장에 필요한 가속화를 지원한다.

 

가속기는 64개의 AI 맞춤형, 프로그래밍이 가능한 TPC와 8개의 MME로 구성된 이종 컴퓨팅 엔진으로 구성됐다. 각 가우디 3 MME는 6만4천개의 병렬 연산을 수행할 수 있으며 딥러닝 알고리즘의 기본 연산 유형인 복잡한 행렬 연산을 처리할 수 있다.

 

24개의 200Gb 이더넷 포트가 모든 인텔 가우디 3 가속기에 통합돼있어 유연한 개방형 표준 네트워킹을 제공한다. 이 때문에 대규모 컴퓨팅 클러스터를 지원하고 독점 네트워킹 패브릭이 한 벤더에 종속될 필요가 없다. 또 단일 노드에서 수천 개까지 스케일업, 스케일아웃 할 수 있도록 설계됐다.

 

가우디 소프트웨어는 파이토치(PyTorch) 프레임워크를 통합하고 생성형 AI 개발자에게 허깅 페이스(Hugging Face) 커뮤니티 기반 최적화 모델을 제공한다. 이를 통해 개발자는 하드웨어 유형 간 모델을 쉽게 이식할 수 있다.

 

가우디 3 PCIe 부속 카드도 제품군에 새로 추가됐다. 맞춤 설계된 새로운 폼팩터는 파인 튜닝, 추론, RAG와 같은 워크로드에 적절하다. 또 600와트의 풀 하이트 폼팩터로 128GB의 HBM2e 메모리 용량, 초당 3.7TB의 대역폭을 제공한다.
 

 

 



배너