왜 LLM에서는 Mac 구조가 유리한가?

LLM 프로그램을 하기 위해서 맥과 DGX Spark 중에서 고민중입니다.
어떤 것이 나에게 유리한지 찾고 있습니다.
AI LLM 프로그램을 공부하는것이 과연 나에게 얼마나 영향을 줄지 모르겠지만.
그래서 고민한 결과를 저장합니다.

표로 정리 하면 이렇다.

모델 크기별 LLM 속도 비교 (개념적)

모델 크기	Mac (M5 Max 128GB)	GPU PC (RTX 4090 24GB)	DGX Spark
3B	120 ~ 200 tok/s	180 ~ 300 tok/s	100 ~ 150 tok/s
7B	70 ~ 120 tok/s	120 ~ 200 tok/s	60 ~ 100 tok/s
13B	40 ~ 80 tok/s	70 ~ 120 tok/s	35 ~ 60 tok/s
30B	20 ~ 40 tok/s	불가 (VRAM 부족)	18 ~ 35 tok/s
70B	5 ~ 10 tok/s	불가 (VRAM 부족)	10 ~ 18 tok/s

단위 : tok/s (tokens per second)

왜 LLM에서는 Mac 구조가 유리한가?

최근 로컬 LLM을 돌려보는 개발자들이 공통적으로 느끼는 점이 하나 있다. 의외로 Mac의 Apple Silicon 구조가 LLM 추론에서 상당히 강하다는 것이다.

이 현상은 단순한 CPU 성능 문제가 아니라 컴퓨터 구조의 차이에서 나온다.

1. LLM 계산 구조의 특징

LLM은 일반 프로그램과 계산 방식이 다르다.

토큰 하나 생성 과정

모델 weight 읽기
→ 행렬 계산
→ 다음 토큰 확률 계산
→ 다음 토큰 생성
→ 반복

여기서 중요한 점은 다음이다.

연산보다 메모리 읽기가 훨씬 많다.

그래서 LLM은 흔히 다음과 같이 표현된다.

Memory Bandwidth Bound Workload

즉 성능을 결정하는 요소는 연산력보다 메모리 대역폭이다.

2. 기존 PC + GPU 구조

전통적인 PC 구조는 다음과 같다.

CPU
 ↓
RAM
 ↓
PCIe
 ↓
GPU
 ↓
VRAM

이 구조에서는 데이터 이동이 다음과 같이 발생한다.

RAM ↔ GPU VRAM

문제는 다음과 같다.

CPU / GPU / RAM 구조가 분리되어 있음
데이터 이동 경로가 길다
데이터 복사가 발생한다

LLM처럼 메모리 접근이 많은 작업에서는 이 구조가 비효율적으로 작동한다.

3. Apple Silicon 구조

Apple Silicon은 구조 자체가 다르다.

CPU
GPU
NPU
↓
Unified Memory

특징은 다음과 같다.

CPU와 GPU가 같은 메모리를 사용
메모리가 칩 바로 옆에 위치
메모리 버스 폭이 매우 넓음

이 구조에서는 다음이 사라진다.

RAM ↔ GPU 데이터 복사

즉 데이터 이동 지연이 매우 낮다.

4. 메모리 대역폭 차이

LLM에서 가장 중요한 것은 메모리 대역폭이다.

구조	대역폭
일반 PC DDR5	약 80 GB/s
DGX Spark	약 273 GB/s
Apple M3/M5 Max	약 400 ~ 600 GB/s

즉 Apple Silicon은 메모리를 훨씬 빠르게 읽을 수 있다.

5. LLM과 Apple 구조의 궁합

LLM 추론에서는 다음 작업이 계속 반복된다.

weight 읽기
activation 읽기
KV cache 읽기

그래서 성능을 결정하는 것은 다음 두 가지다.

메모리 대역폭
메모리 지연

Apple Silicon은 다음 특성을 가진다.

메모리 거리가 매우 짧다
버스 폭이 매우 넓다
데이터 복사가 없다

그래서 LLM 추론에서 상당히 유리하게 작동한다.

6. 그렇다면 GPU는 왜 여전히 강한가?

GPU 구조는 다음 작업에서 매우 강하다.

게임
3D 렌더링
과학 계산
AI 학습(Training)

이 작업들은 다음 특성을 가진다.

Compute Bound Workload

즉 성능을 결정하는 것은

GPU 코어 수
연산량

이다.

7. 최종 결론

지금까지의 내용을 한 줄로 정리하면 다음과 같다.

GPU 구조 = 연산 중심 컴퓨터
Apple 구조 = 데이터 이동 중심 컴퓨터

그리고 LLM은

데이터 이동 중심 작업

이다.

그래서 LLM 추론에서는 의외로 Apple Silicon 구조가 매우 좋은 성능을 보여준다.

정리

LLM은 Memory Bound 작업이다
Apple은 Unified Memory 구조이다
메모리 버스가 매우 넓다
CPU/GPU 데이터 복사가 없다
메모리 지연이 매우 낮다

이 이유 때문에 로컬 LLM 환경에서 Mac이 생각보다 강한 성능을 보여준다.

그러나 이것은 모델발전에 따라서 또 다른 문제가 된다.
“2년 뒤에도 지금 같은 모델 크기가 필요할까?”

저작자표시 비영리 변경금지 (새창열림)

'AI (GPT4, 로컬 LLM)' 카테고리의 다른 글

You can't have an easy life and great character (0)	2026.03.17
대화형 AI 도구 비교 정리 (ChatGPT, Claude, Gemini, Copilot, Grok) (0)	2026.03.14
알파고(바둑)와 LLM은 무엇이 다른가? (0)	2026.03.12
맥 ChatGPT 앱 vs 웹 버전, 실제 사용해보니 생기는 차이 (0)	2026.03.06
ChatGPT 기능: 브랜치(Branch)와 프로젝트 소스(Project Sources) (0)	2026.03.05

AI, BackEnd Program & 일상

왜 LLM에서는 Mac 구조가 유리한가?

모델 크기별 LLM 속도 비교 (개념적)

왜 LLM에서는 Mac 구조가 유리한가?

1. LLM 계산 구조의 특징

2. 기존 PC + GPU 구조

3. Apple Silicon 구조

4. 메모리 대역폭 차이

5. LLM과 Apple 구조의 궁합

6. 그렇다면 GPU는 왜 여전히 강한가?

7. 최종 결론

정리

'AI (GPT4, 로컬 LLM)' 카테고리의 다른 글

티스토리툴바

왜 LLM에서는 Mac 구조가 유리한가?

모델 크기별 LLM 속도 비교 (개념적)

왜 LLM에서는 Mac 구조가 유리한가?

1. LLM 계산 구조의 특징

2. 기존 PC + GPU 구조

3. Apple Silicon 구조

4. 메모리 대역폭 차이

5. LLM과 Apple 구조의 궁합

6. 그렇다면 GPU는 왜 여전히 강한가?

7. 최종 결론

정리

'AI (GPT4, 로컬 LLM)' 카테고리의 다른 글

관련글

티스토리툴바