본문 바로가기
AI (GPT4, 로컬 LLM)

왜 LLM에서는 Mac 구조가 유리한가?

by 자루스 2026. 3. 14.

 

 

LLM 프로그램을 하기 위해서 맥과 DGX Spark 중에서 고민중입니다.
어떤 것이 나에게 유리한지 찾고 있습니다. 
AI LLM 프로그램을 공부하는것이 과연 나에게 얼마나 영향을 줄지 모르겠지만.
그래서 고민한 결과를 저장합니다.

 

 

표로 정리 하면 이렇다.

모델 크기별 LLM 속도 비교 (개념적)

모델 크기 Mac (M5 Max 128GB) GPU PC (RTX 4090 24GB) DGX Spark
3B 120 ~ 200 tok/s 180 ~ 300 tok/s 100 ~ 150 tok/s
7B 70 ~ 120 tok/s 120 ~ 200 tok/s 60 ~ 100 tok/s
13B 40 ~ 80 tok/s 70 ~ 120 tok/s 35 ~ 60 tok/s
30B 20 ~ 40 tok/s 불가 (VRAM 부족) 18 ~ 35 tok/s
70B 5 ~ 10 tok/s 불가 (VRAM 부족) 10 ~ 18 tok/s

단위 : tok/s (tokens per second)

 

 

왜 LLM에서는 Mac 구조가 유리한가?

최근 로컬 LLM을 돌려보는 개발자들이 공통적으로 느끼는 점이 하나 있다. 의외로 Mac의 Apple Silicon 구조가 LLM 추론에서 상당히 강하다는 것이다.

이 현상은 단순한 CPU 성능 문제가 아니라 컴퓨터 구조의 차이에서 나온다.


1. LLM 계산 구조의 특징

LLM은 일반 프로그램과 계산 방식이 다르다.

토큰 하나 생성 과정

모델 weight 읽기
→ 행렬 계산
→ 다음 토큰 확률 계산
→ 다음 토큰 생성
→ 반복

여기서 중요한 점은 다음이다.

연산보다 메모리 읽기가 훨씬 많다.

그래서 LLM은 흔히 다음과 같이 표현된다.

Memory Bandwidth Bound Workload

즉 성능을 결정하는 요소는 연산력보다 메모리 대역폭이다.


2. 기존 PC + GPU 구조

전통적인 PC 구조는 다음과 같다.

CPU
 ↓
RAM
 ↓
PCIe
 ↓
GPU
 ↓
VRAM

이 구조에서는 데이터 이동이 다음과 같이 발생한다.

RAM ↔ GPU VRAM

문제는 다음과 같다.

  • CPU / GPU / RAM 구조가 분리되어 있음
  • 데이터 이동 경로가 길다
  • 데이터 복사가 발생한다

LLM처럼 메모리 접근이 많은 작업에서는 이 구조가 비효율적으로 작동한다.


3. Apple Silicon 구조

Apple Silicon은 구조 자체가 다르다.

CPU
GPU
NPU
↓
Unified Memory

특징은 다음과 같다.

  • CPU와 GPU가 같은 메모리를 사용
  • 메모리가 칩 바로 옆에 위치
  • 메모리 버스 폭이 매우 넓음

이 구조에서는 다음이 사라진다.

RAM ↔ GPU 데이터 복사

데이터 이동 지연이 매우 낮다.


4. 메모리 대역폭 차이

LLM에서 가장 중요한 것은 메모리 대역폭이다.

구조 대역폭
일반 PC DDR5 약 80 GB/s
DGX Spark 약 273 GB/s
Apple M3/M5 Max 약 400 ~ 600 GB/s

즉 Apple Silicon은 메모리를 훨씬 빠르게 읽을 수 있다.


5. LLM과 Apple 구조의 궁합

LLM 추론에서는 다음 작업이 계속 반복된다.

weight 읽기
activation 읽기
KV cache 읽기

그래서 성능을 결정하는 것은 다음 두 가지다.

  • 메모리 대역폭
  • 메모리 지연

Apple Silicon은 다음 특성을 가진다.

  • 메모리 거리가 매우 짧다
  • 버스 폭이 매우 넓다
  • 데이터 복사가 없다

그래서 LLM 추론에서 상당히 유리하게 작동한다.


6. 그렇다면 GPU는 왜 여전히 강한가?

GPU 구조는 다음 작업에서 매우 강하다.

  • 게임
  • 3D 렌더링
  • 과학 계산
  • AI 학습(Training)

이 작업들은 다음 특성을 가진다.

Compute Bound Workload

즉 성능을 결정하는 것은

  • GPU 코어 수
  • 연산량
이다.

7. 최종 결론

지금까지의 내용을 한 줄로 정리하면 다음과 같다.

GPU 구조 = 연산 중심 컴퓨터
Apple 구조 = 데이터 이동 중심 컴퓨터

그리고 LLM은

데이터 이동 중심 작업
이다.

그래서 LLM 추론에서는 의외로 Apple Silicon 구조가 매우 좋은 성능을 보여준다.


정리

  • LLM은 Memory Bound 작업이다
  • Apple은 Unified Memory 구조이다
  • 메모리 버스가 매우 넓다
  • CPU/GPU 데이터 복사가 없다
  • 메모리 지연이 매우 낮다

이 이유 때문에 로컬 LLM 환경에서 Mac이 생각보다 강한 성능을 보여준다.

 

 

그러나 이것은 모델발전에 따라서 또 다른 문제가 된다.
2년 뒤에도 지금 같은 모델 크기가 필요할까?”