강의

멘토링

로드맵

NEW
AI 기술

/

자연어 처리

AI 입문을 위한 LLM 아키텍처 이해와 GPU 활용전략

트랜스포머 기반의 LLM 아키텍처와 GPU 활용 전략을 이해하고 vLLM을 통해 직접 서빙해봅니다. AI 시스템 파이프라인을 구축하고 모니터링 및 멀티 GPU 활용까지 전 과정을 다루는 강의로 이 모든 과정은 복잡한 수식이나 코딩 과정 없이 그림과 실습을 통해 직관적으로 배울 수 있습니다.

23명 이 수강하고 있어요.

난이도 초급

수강기한 무제한

  • 김현진
llm
llm
gpu
gpu
architecture
architecture
AI
AI

수강 후 이런걸 얻을 수 있어요

  • 트랜스포머 모델이 뭐야? 트랜스포머 모델의 인코더와 디코더 이해

  • 트랜스포머 모델의 근간, MHA, MQA, GQA, MLA 등 어텐션 메커니즘 발전 흐름 완벽 이해

  • 현재 사실상의 표준, vLLM 엔진의 활용 방법 마스터

  • vLLM 서빙과 TTFT, TPOT 성능 지표 모니터링

  • Tensor/Pipeline/Data Parallel을 활용한 멀티 GPU 아키텍처 설계 및 구현

  • Agent AI의 핵심, Tool calling 의 원리 이해

  • 현업 노하우 전수, AI 시스템 파이프라인 구축과 성능 모니터링

  • 딥시크 논문을 통해 이해하는 최신 트렌드 (MLA, MTP, 엔그램 등)

AI 3대 강국이 된 지금 필요한 것은

LLM 이해와 실무 적용을 위한

LLM 마스터 클래스

자율형 에이전트 시대로 진입하면서
오픈 클로, 클로드 코드, Codex 등 많은 에이전트 도구를 사용하고 있지만
데이터 유출의 위협과 통제되지 않는 토큰 비용의 문제는 해결할 수 없습니다.


정답은 Hybrid AI 아키텍처입니다.



하지만 무조건 pubic API가 좋지 않냐구요?
그렇지 않습니다. 

요즘엔 public API(chatGPT, Claude, Sonnet etc.) 에 맞먹는
LLM 국내/외에서 다수 개발되고 있습니다.  



국내 소버린 AI 1차 평가 결과 선정된 3가지 모델


그러나 LLM을 잘 알고 사용하는 것은 쉽지 않습니다.
비싼 GPU를 구매해놓고
LLM을 이해하고 사용하는 것과 이해하지 않고 사용하는 것은
많은 차이를 가져옵니다.


그래서 이제는 LLM을 직접 서빙하기 위한 아키텍처를 배울 단계입니다.


🌟 From LLM Architecture to Serving


대 에이전트의 시대를 맞이하여 이제는 학습보다 추론의 시대입니다. Public API를 잘 사용하는 것도 필요하지만 많은 기업에서는 보안, 거버넌스, 비용 등 여러 이유로 로컬 환경의 서빙 환경 구축을 선호합니다.로컬 환경 LLM 서빙 환경을 구축하기 위한 LLM 아키텍처의 이해부터 아키텍처 구성, LLM 개발 트렌드까지 모든 것을 배워보세요.


강의 Core 구성

Core 1. 허깅페이스 모델 이해하기


허깅페이스에 공개된 수 많은 LLM 알고 써야 합니다.
그러나 LLM 모델의 스펙을 알려주는 config.json 파일은 초보자에게는 암호문과 다름 없습니다. 왜냐하면 트랜스포머(transformer) 모델을 이해하고 있어야 볼 수 있거든요.

하지만 걱정 마세요. 이 강의를 듣고 나면 주요 스펙은 보고 이해할 수 있는 전문가가 되실 수 있습니다.

강의를 통해 config.json 파일을 해독하는 방법을 터득하세요.

(챕터 3-5 부분의 내용입니다. 나머지 주요 파라미터에 대해 모두 얻어가세요)


Core 2. 어텐션 마스터하기

현재 LLM 모델의 기반이 되는 트랜스포머 모델의 시작과 끝은 어텐션입니다.

attention-model 은 2017년에 등장했지만
아직도 10년 가까이 최강 알고리즘으로 군림하고 있습니다.
트랜스포머 구조를 벗어나기 위한 많은 노력들이 이뤄지고 있지만
아직까지 트랜스포머의 어텐션을 완전히 대체하는 아키텍처는 나오지 않았습니다.

⚠️ 어텐션은 대충 알아서는 절대 안됩니다.


어텐션의 원리를 완벽 이해하고 발전 흐름까지 배워가세요.

(챕터 5-4 부분의 내용입니다. 어텐션의 발전 흐름이 곧 LLM의 발전 흐름입니다)


Core 3. 멀티 GPU 아키텍처 정복하기

대규모 LLM 구동과 빠른 추론을 위한 멀티 GPU 구성은 필수입니다.
하지만 멀티 GPU 구성에도 여러 방법이 있다는 것, 아시나요?


핵심 AI 엔지니어가 되기 위한 필수 관문, GPU 활용 전략에 대해 전수해 드립니다.




😄 이런 분들께 추천해요

AI 초보자

트랜스포머 공부하려고 어텐션 알아보다가 수식에서 포기한 분

AI 입문자

chatGPT 또는 public API 로만 써본 분. 그런데 LLM 모델이 어떻게 구동되는지 원리를 배우고 싶은 분

AI 엔지니어

LLM 모델 아키텍처 특성을 이해하고 GPU 환경에 구동, 관리할 수 있는 역량이 필요한 AI 엔지니어

💡 강의에서 배우는 내용

Step 1. Foundation

  • 트랜스포머 모델 이해

  • 토크나이저 & 임베딩

  • Encoder vs Decoder

  • 모델 소스코드 보기

Step 2. Attention

  • Docoder 모델 정복

  • 어텐션 마스터하기

  • Masked 어텐션

  • KV Cache

Step 3. Serving

  • vLLM Serving

  • Paged Attention

  • OpenAI Compatible

  • SSE Protocol

Step 4. Tool Call

  • Tool Call 이해

  • Tool 응답 아키텍처

  • Chat Template

  • Tool call parser

Step 5. Optimazation

  • 성능 테스트

  • vLLM 모니터링

  • 멀티 GPU & Parallelism

  • vLLM 추가 기능들

Step 6. Advanced

  • Multi Token Prediction

  • mHC

  • Engram

  • 한계 극복을 위한 노력들

💡 강의 핵심 Point

Point 1

수식없이 배우는 어텐션의 핵심 원리


수식없이 엑셀을 통해 직관적으로 다양한 어텐션 기법을 배웁니다 (MHA → MQA → GQA, Sliding Window 어텐션)

Point 2

3 Tier 구조의 AI 아키텍처 구현


OpenWebUI와 FastAPI, vLLM으로 이어지는 3Tier 아키텍처의 기본 구조를 이해하고 Tool 연동의 기본 흐름을 배웁니다

Point 3

vLLM 운영을 위한 동시 사용자 수 측정과 Tip

jMeter를 사용하여 FastAPI → vLLM 부하 테스트를 통해 동시 사용자 수에 따른 TTFT, TPOT 등 지표를 확인합니다.

Point 4

vLLM 서비스의 모니터링

프로메테우스 & 그라파나 대시보드 파이프라인을 구축하여 vLLM 서비스 운영에 대한 기본 원리를 터득합니다.

Point 5

단일GPU / 멀티 GPU 테스트 

3가지 기본 멀티 GPU (Pipeline Paralle, Tensor Parallel, Data Parallel)에 대한 실습을 통해 멀티 GPU가 왜 필요한지 직접 눈으로 확인합니다.

Point 6

LLM 개발 트렌드 정복하기

딥시크의 MTP, Shared MoE, MLA, Engram 등 최신 기법과 추론 효율화를 위해 진행되고 있는 LLM 개발 트렌드를 소개합니다.

✅ 강의에서 사용하는 도구들




✅ 서버 실습 환경 안내

vLLM 시스템 구축은 Runpod을 활용하여 진행됩니다. 또한 Google Colab의 T4 GPU를 활용한 실습도 병행됩니다. T4 GPU는 15GB의 GPU 메모리를 제공해주고 있어서 Colab에서 가능한 실습은 Colab에서 진행합니다.

Runpod

OpenWebUI → FastAPI → Runpod 플로우 기반 실습 환경을 구성합니다. Runpod 클라우드의 GPU 서버에 vLLM을 올려 여러 실습을 진행합니다.

실습을 위해 약 $10 ~ $20 정도의 실습 비용이 발생합니다.


Google Colab

인공지능(AI) 실습 표준 환경과도 같은 Google Colab은 Runpod 환경이 필요없는 단순 실습을 위해 활용합니다. Pro가 아닌 일반 무료 티어로 진행하며 T4 GPU를 활용합니다.

✅ 로컬 실습 환경 안내

vLLM 서비스는 Runpod에 띄우지만
강의를 수강하시는 로컬 컴퓨터에도 OpenwebUI 및 FastAPI가 구동됩니다.
따라서 아래 수강 환경이 만족되는지 확인 해주세요!



RunpodColab을 주 실습 환경으로 사용하지만
로컬 환경 내 OpenWebUI, FastAPI를 띄워서 실습하게 됩니다.

⚠️ 본 강의는 vLLM이 업데이트되면 강의도 함께 업데이트 됩니다.

vLLM의 업데이트 속도는 매우 빠릅니다. 그러나 아직 Major 버전은 0버전대에 머물러 있습니다.
하지만 많은 기업에서 사실상의 표준처럼 vLLM을 추론 엔진으로 사용하고 있습니다. 
현재 LLM의 주축을 이루는 트랜스포머 모델 뿐만 아니라 대안으로 등장한 Mamba 아키텍처까지 vLLM에서 지원하고 있으며 Multi Token Prediction 과 같이 모델에 새로운 기능이 추가되면 이를 뒷받침하기 위해 vLLM은 매번 업데이트 됩니다. 
본 강의 또한 새로운 vLLM의 기능 또는 새로운 모델 타입이 나오면 강의가 업데이트 될 예정입니다. 

LLM의 트렌드를 놓치지 마세요. 


이런 분들께
추천드려요

학습 대상은
누구일까요?

  • AI 엔지니어를 목표로 LLM 서빙 기술을 체계적으로 학습하고자 하는 입문자

  • 복잡한 수식 없이 트랜스포머와 어텐션 원리를 실무 관점에서 이해하고 싶은 개발자

  • GPU 최적화와 멀티 GPU 환경에서 AI 시스템을 구축하고자 하는 백엔드/인프라 엔지니어

선수 지식,
필요할까요?

  • 파이썬 기본 문법에 대한 이해 (변수, 함수, 조건문 등)

  • git 에 대한 기본적인 사용법

안녕하세요
입니다.

1,405

수강생

93

수강평

233

답변

4.9

강의 평점

3

강의

안녕하세요.

대기업 데이터 & AI 분야에서 일하고 있는 17년차 현직자입니다.

정보관리기술사를 취득한 이후 지금까지 얻은 지식을 많은 사람들에게 공유하고자 컨텐츠 제작하고 있습니다.

반갑습니다. :)

 

Contact: hjkim_sun@naver.com

커리큘럼

전체

54개 ∙ (13시간 33분)

해당 강의에서 제공:

수업자료
강의 게시일: 
마지막 업데이트일: 

수강평

아직 충분한 평가를 받지 못한 강의입니다.
모두에게 도움이 되는 수강평의 주인공이 되어주세요!

얼리버드 할인 중

월 ₩179,059

5개월 할부 시

69%

₩143,000

₩895,297

김현진님의 다른 강의

지식공유자님의 다른 강의를 만나보세요!

비슷한 강의

같은 분야의 다른 강의를 만나보세요!