반응형
목차
엔비디아(NVIDIA)는 AI 반도체 시장에서 독보적인 위치를 차지하며, 매년 혁신적인 AI 칩 아키텍처를 선보이고 있습니다. 최근 주목받는 블랙웰(Blackwell) 아키텍처와, 2026년 출시 예정인 차세대 루빈(Rubin) 아키텍처의 특징과 전망을 정리합니다.
블랙웰(Blackwell): AI 팩토리의 엔진
출시 시기: 2024년 말~2025년 초
기술적 특징
- 2080억 개의 트랜지스터, TSMC 4NP 공정 적용
- 두 개의 리티클 한계 다이를 10TB/s 속도로 연결한 단일 GPU 구조
- FP8, FP16 등 다양한 정밀도 지원, 특히 4비트 부동소수점(FP4) 연산을 통한 메모리 효율 극대화 및 초대형 모델 지원
- 새로운 트랜스포머 엔진과 Blackwell Tensor 코어 탑재, LLM 및 MoE 모델의 추론·학습 가속화
- 최대 288GB의 HBM3e/HBM4 메모리, 최대 30 PFLOPS의 AI 성능
- 전력 소모와 발열 관리가 중요한 과제. 액체 냉각 등 서버 인프라 개선 병행
시장 반응
- 기존 H100(호퍼) 대비 추론 5배, 데이터 처리 18배 향상
- AI 데이터센터, 생성형 AI, 초대형 언어모델(LLM) 학습 등에서 폭발적 수요
루빈(Rubin): 블랙웰의 혁신을 잇는 차세대 AI 칩
출시 시기: 2026년(루빈), 2027년(루빈 울트라)
아키텍처 및 명명
- 미국 천문학자 베라 루빈(Vera Rubin)의 이름에서 따온 차세대 GPU
- GPU(R100)와 신규 CPU(베라, Vera)로 구성
주요 기술 및 변화
- 메모리 혁신: HBM3e에서 HBM4로 전환, GPU당 288GB(루빈), 1TB(루빈 울트라) 메모리, 대역폭 13TB/s로 대폭 향상
- 성능: FP8 연산 기준 1.2 ExaFLOPS(루빈), 블랙웰 대비 3.3배 향상. FP4 기준 50 PFLOPS(루빈), 100 PFLOPS(루빈 울트라)
- CPU 업그레이드: 기존 그레이스(Grace) 대신 88개 커스텀 ARM 코어, 176 스레드의 '베라' CPU 탑재. GPU와 1.8TB/s NVLink로 초고속 연결
- 확장성: NVL144(루빈), NVL576(루빈 울트라) 등 대규모 랙 구성, 랙 단위로 3.3~15 ExaFLOPS의 압도적 연산력 제공
- 에너지/비용 효율: 호퍼 대비 900배 성능, 비용은 3% 수준으로 혁신적 절감
- HBM4 수요: SK하이닉스, 삼성전자 등 국내 메모리 업체의 수혜 전망
시장 전략
- 제품 출시 주기를 기존 2년에서 1년으로 단축, 시장 지배력 강화 선언
- 루빈 울트라(2027), 파인먼(2028) 등 후속 로드맵도 공개
비교: 블랙웰 vs 루빈
구분 | 블랙웰(Blackwell) | 루빈(Rubin) |
출시 시기 | 2024~2025 | 2026 (루빈), 2027 (울트라) |
메모리 | HBM3e/HBM4, 288GB | HBM4, 288GB~1TB |
연산 성능 | 25~30 PFLOPS (FP4) | 50~100 PFLOPS (FP4), 1.2 ExaFLOPS (FP8) |
CPU | Grace | Vera (88 ARM 코어, 176 스레드) |
NVLink 대역폭 | 130TB/s | 260TB/s |
혁신 포인트 | FP4 연산, 트랜스포머 엔진 | HBM4, 초고속 NVLink, CPU 업그레이드, 1년 주기 |
에너지/비용 효율 | 호퍼 대비 13% 비용, 68배 성능 | 호퍼 대비 3% 비용, 900배 성능 |
맺음말
엔비디아는 블랙웰로 AI 팩토리 시대의 문을 열었고, 루빈을 통해 AI 연산의 한계를 다시 한번 뛰어넘으려 하고 있습니다. 루빈은 HBM4, 초고속 CPU-GPU 연결, 압도적인 연산력, 그리고 혁신적인 에너지 효율로 AI 산업의 패러다임을 바꿀 핵심 칩으로 기대를 모으고 있습니다. 앞으로도 엔비디아의 연례 신제품 발표와 로드맵에 주목할 필요가 있습니다.
반응형
댓글