The Engineering Unlocks Behind DeepSeek

The Engineering Unlocks Behind DeepSeek | YC Decoded

cadabra 2025. 2. 7. 23:24

🔍 DeepSeek R1: 최신 AI 모델의 기술적 혁신 분석

중국 AI 기업 DeepSeek이 최근 공개한 DeepSeek R1은 오픈 소스 추론 모델로, OpenAI의 GPT-4.0 (01)과 유사한 성능을 더 적은 비용으로 달성했다고 주장하고 있습니다. 이는 AI 연구 커뮤니티뿐만 아니라 주식 시장에서도 큰 반향을 일으켰으며, Nvidia의 시가총액이 하루 만에 600억 달러 감소하는 등 상당한 파급 효과를 가져왔습니다. 그러나 DeepSeek R1의 출시는 예고되지 않은 사건이 아니며, DeepSeek은 이미 여러 달 동안 연구 논문을 공개하고 모델 가중치를 배포해 왔습니다. 이번 발표를 통해 대중이 본격적으로 주목하기 시작했을 뿐입니다.

🧠 DeepSeek R1 vs. DeepSeek V3: 두 모델의 차이점

DeepSeek은 두 가지 주요 모델을 공개하였습니다.

DeepSeek V3 (2023년 12월 출시)
- 일반적인 AI 모델로, OpenAI GPT-4.0, Anthropic Claude 3.5 Sonnet, Google Gemini 1.5와 비교될 수 있는 기본(base) 모델입니다.
DeepSeek R1 (2024년 1월 말 출시)
- DeepSeek V3 기반의 추론(reasoning) 최적화 모델
- OpenAI의 GPT-4.0 (01) 및 Google Flash 2.0과 유사한 성능을 달성
- 복잡한 추론 능력을 강화하기 위해 다양한 알고리즘 개선 적용

DeepSeek R1이 인공지능 추론 능력에서 뛰어난 성능을 보이는 것은 V3에서 적용된 핵심 알고리즘 최적화 기법 덕분입니다. 이는 이미 DeepSeek V2(2024년 5월 공개) 및 DeepSeek Math(2024년 2월 공개) 논문에서 예견된 발전이었습니다.

🚀 DeepSeek V3의 주요 기술적 혁신

DeepSeek V3는 주로 컴퓨팅 효율성과 훈련 비용 절감을 목표로 설계되었습니다.

🏗️ FP8(8비트 부동소수점) 최적화

V3는 기존의 16비트(FP16) 또는 32비트(FP32)가 아닌 FP8(8비트 부동소수점) 형식으로 훈련됨.
메모리 절감 및 GPU FLOPS 활용도 증가 → 훈련 비용 감소
핵심 기술: FP8 Accumulation Fix
- 주기적으로 계산을 FP32로 변환하여 수치적 오류 누적을 방지
- 이를 통해 대규모 GPU 클러스터에서도 효율적인 학습 가능

🖥️ GPU 활용 최적화 및 Nvidia와의 차별점

DeepSeek은 미국의 GPU 수출 제한으로 인해, 기존의 GPU 자원을 보다 효율적으로 활용하는 방법을 모색했습니다.

일반적인 AI 연구소의 GPU 활용률(MFU, Model FLOPS Utilization)은 35%에 불과
DeepSeek은 이를 극복하기 위해 FP8 및 새로운 아키텍처 도입
Nvidia의 장점: 하드웨어(GPU) + 네트워크(Infiniband) + 소프트웨어(CUDA) 통합 시스템
DeepSeek의 접근법: 독자적인 GPU 최적화 기법 적용

🧩 Mixture of Experts(MoE) 구조 채택

DeepSeek V3는 MoE(Mixture of Experts) 아키텍처를 활용
총 6710억 개의 모델 파라미터 중, 단 370억 개만 활성화
- 기존 Llama 3 모델(4050억 개의 모든 파라미터 활성화)과 대비
- 연산량 절감 효과로 인해 11배 더 적은 연산으로 동일한 성능 유지
문제점: MoE 모델은 훈련이 어렵고 불안정
DeepSeek은 이를 해결하기 위해 새로운 안정화 기법 도입

💾 KV 캐시(KV Cache) 최적화 – Multi-head Latent Attention (MLA)

대규모 AI 모델의 주요 병목: KV 캐시 크기 증가로 인한 메모리 사용량 과다
MLA(Multi-head Latent Attention) 적용
- 기존의 키-값 행렬 전체 저장 방식 대신, 압축된 표현을 저장
- 필요할 때만 재구성하여 메모리 사용량 93.3% 감소
- 생성 속도 5.76배 증가

🔄 Multi-token Prediction (MTP) 도입

기존 LLM: 다음 토큰 하나씩 예측
DeepSeek V3: 한 번에 여러 개의 토큰 예측 (MTP, Multi-token Prediction)
- 학습 효율 증가
- 더 부드러운 문장 생성 가능
- 추론 속도 증가

🔎 DeepSeek R1의 추론 모델 최적화 기법

DeepSeek R1의 핵심 차별점은 강화 학습을 통한 추론 능력 강화입니다.

🏆 강화 학습 (Reinforcement Learning, RL) 기반 학습

OpenAI 01과 마찬가지로 강화 학습을 활용하여 단계별 사고(Chain of Thought) 능력 향상
DeepSeek R1은 자체적인 RL 알고리즘 "GRPO (Group Relative Policy Optimization)"을 적용
기존 RLHF(RL with Human Feedback)와 비교하여, 단순한 자동 채점 시스템을 통해 학습 가능
스스로 오류를 인식하고 수정하는 'Aha Moment' 구현

🔤 초기 미세 조정 (Cold Start Fine-tuning) 기법

강화 학습을 적용하면 모델이 다국어 환경에서 혼합된 출력을 생성하는 문제가 발생
이를 방지하기 위해 초기 미세 조정(Cold Start Fine-tuning) 적용
최종적으로 일관된 언어 출력을 제공하며, 읽기 쉬운 형식 유지

💰 DeepSeek R1의 낮은 훈련 비용 논란

DeepSeek V3의 훈련 비용이 단 550만 달러라는 주장으로 인해 논란이 발생했습니다.
그러나 이는 최종 훈련 단계 비용만 포함한 수치이며,

R1 개발 비용, R&D, 인프라 운영 비용을 제외한 값
실제 총 비용은 수억 달러 이상으로 추정

그러나 중요한 점은, DeepSeek의 모델이 동일한 성능을 훨씬 낮은 비용으로 구현할 수 있다는 점입니다.

📌 결론: AI 혁신 경쟁 가속화

DeepSeek R1은 AI 모델 최적화와 강화 학습 기술 발전의 최신 사례입니다.

✅ FP8 연산을 통한 비용 절감
✅ MoE 구조 활용으로 연산량 감소
✅ MTP, MLA 등의 기술로 속도 및 효율성 향상
✅ 강화 학습 기반 추론 능력 강화

하지만, AI 시장의 변화 속도는 더욱 가속화되고 있으며,
OpenAI는 R1 출시 2주 후 GPT-4.0(03)을 발표하며 다시 시장의 판도를 바꿨습니다.

결론적으로, AI 모델 개발 경쟁은 이제 단순한 성능 비교를 넘어 "비용 대비 성능 최적화"라는 새로운 패러다임으로 전환되고 있습니다.