[더테크=전수연 기자] 데이터 클라우드 기업 스노우플레이크가 이달 초 미국 샌프란시스코에서 ‘스노우플레이크 서밋 2024’를 열고 자사 협력 방안 등을 공유한 데 이어 관련 플랫폼 업데이트 방향을 소개했다. 다양한 종류의 엔진을 지원하는 신규 오픈소스 카탈로그를 통해 다양한 상호 운용성을 지원할 방침이다.
스노우플레이크는 서울 강남구 인터컨티넨탈 서울 코엑스에서 ‘스노우플레이크 데이터 클라우드 서밋 24 기자간담회’를 19일 개최했다.
최기영 스노우플레이크 코리아 지사장은 ‘한국 시장 내 성과 및 스노우플레이크 비즈니스 현황 업데이트’를 다뤘다.
최 지사장은 “스노우플레이크는 데이터베이스를 엔지니어링, 데이터 레이크, 클라우드 웨어하우스, 레이크하우스 등 여러 아키텍처를 활용할 경우 파트너 간 데이터를 공유해야 할 일이 많다고 분석했다”며 “쉽게 데이터를 공유할 수 있도록 보안, 거버넌스에 대한 커넥티드 데이터 컨셉을 2018년부터 가져왔다”고 말했다.
또한 2022년부터는 프로그래머블 데이터, 데이터 플랫폼을 강조하기 시작했다. 대표적인 예로 스노우파크를 통해 데이터를 모델링 할 경우 사용자는 여러가지 프로그래밍 언어를 활용해 애플리케이션을 만들고 거버넌스에 대한 문제를 낮출 수 있다.
한편 앞서 열린 ‘스노우플레이크 서밋 2024’는 AI, 데이터에 집중한 컨퍼런스로써 엔비디아(NVIDIA)의 협력 강화를 알린 바 있다. 양사 협력을 통해 스노우플레이크는 엔비디아 AI 엔터프라이즈 소프트웨어를 적용하고 리트리버 마이크로서비스를 완전 관리형 LLM, 벡터 검색 서비스인 스노우플레이크 코텍스 AI에 통합했다.
스노우플레이크는 개방형 데이터 카탈로그 서비스 ‘폴라리스 카탈로그’도 발표했다. 폴라리스 카탈로그는 아파치 아이스버그(Apache Iceberg)를 지원하며 다양한 시스템 간의 데이터 상호 운용성을 향상하기 위해 설계됐다.
사용자는 아마존웹서비스, 구글 클라우드, 마이크로소프트 애저 등의 클라우드 서비스 플랫폼과 상호 호환성을 갖춰 아이스버그 테이블을 활용할 수 있게 된다. 특히 폴라리스 카탈로그는 스노우플레이크의 AI 데이터 클라우드에 호스팅 되거나 자체 호스팅 될 수 있어 특정 공급자에 종속되지 않는다.
최 지사장은 “해당 카탈로그는 여러 개의 다양한 엔진 상에서 사용될 수 있고 거버넌스, 보안 플랫폼에도 적용 가능하다”며 “하나의 사일로가 없는 데이터 플랫폼 상에서 데이터들이 활용될 수 있는 크로스 엔진 기능이 강화됐다”고 말했다.
이어서 조성현 스노우플레이크 코리아 전무는 ‘데이터 클라우드 서밋 주요 내용’을 공유했다.
AI 데이터 클라우드는 데이터 분석, 파이프라인, AI·머신러닝·애플리케이션 개발 전 과정을 통합한다. 또한 △TCO 절감 △개발 가속화 △협업 증진 △데이터 위협 최소화를 목표로 구성됐다.
조 전무는 “정형, 반정형, 비정형 데이터를 단일 플랫폼에서 지원하고 데이터 엔지니어링·데이터 전처리를 위한 별도의 실행 환경이 불필요하다”며 “데이터가 있는 곳에서 생성형 AI와 같은 기술을 활용하고 데이터, AI 관련 애플리케이션 빌드, 배포·수익화를 지원한다”고 설명했다.
이와 함께 스노우플레이크는 데이터 파운데이션을 강화했다. 다양한 이유로 기업 내에 존재하는 사일로 환경을 제거하고 모든 유형의 데이터, 다양한 아키텍처 패턴을 지원해 워크로드를 단일 플랫폼으로 통합했다. 포괄적인 데이터 거버넌스를 통해 보다 강력한 데이터 파운데이션을 마련하게 됐다.
오픈 포맷 형식으로 외부에 저장된 데이터를 스노우플레이크에서 지원하는 아이스버그 테이블은 새롭게 지원되는 테이블 유형이다. 사용자는 데이터 소유권을 그대로 유지하고 스노우플레이크 일반 테이블과 동일하게 사용할 수 있다.
아이스버그 테이블은 외부 버킷 연결을 위한 스토리지 인터그레이션 설정을 통해 구축할 수 있고 SQL, 스노우파크 등 다양한 커넥터 등으로 아이스버그 테이블에 쿼리를 수행한다.
조 전무는 “대다수의 큰 기업들은 데이터는 오픈 포맷으로 통합하면서 컴퓨팅 엔진은 요건에 맞게 취사 선택해 사용하길 원한다”며 “다만 데이터는 단일 저장소로 통합, 표준화할 수 있지만 실행 엔진별로 자체 카탈로그 계층이 필요하기 때문에 카탈로그가 새로운 사일로를 야기하는 주 원인”이라고 강조했다.
이를 위해 일관된 보안, 거버넌스를 지원하는 아파치 아이스버그용 오픈소스 카탈로그 ‘폴라리스 카탈로그‘는 단일 데이터 계층으로 통합하고 표준화된 보안, 거버넌스 체계를 유지한다. 또한 여러 실행 엔진의 자유로운 선택지를 제공하고 벤더 종속성을 제거했다.
이외에도 스노우플레이크는 기업 데이터를 활용해 AI·머신러닝 모델 개발, 배포를 위한 엑셀러레이터 엔터프라이즈 AI도 소개했다. 이 AI는 별도 인프라 구축·관리가 불필요하기 때문에 LLM, AI 서비스를 안전하게 사용하면서 TCO를 절감할 수 있다.
엔드투엔드 생성형 AI·머신러닝을 위한 통일된 플랫폼은 노코드 기반의 스튜디오, SQL, 파이썬 등의 인터페이스를 기반으로 AI 인프라 접근이 가능하다. 인프라는 서버리스 기반의 완전 관리형 서비스로 제공된다.
아울러 채팅 기반의 테스트 인터페이스를 갖춘 챗(Chat) 플레이그라운드는 다양한 파운데이션 모델을 선택해 자연어 기반의 질문·프롬프트에 대한 응답 성능을 테스트하기 위한 인터페이스다.
사용자는 여러 LLM 모델들의 성능을 비교·테스트 후 스노우사이트 AI·머신러닝의 스튜디오 메뉴에서 머신러닝·LLM 함수를 노코드 기반으로 작성해 사용할 수 있다.