강화학습

강의 커리큘럼 : 강화학습

Q-Learning 부터 DQN, PPO 까지 , 강화학습의 핵심 이론과 실전 알고리즘을 직접 구현하고 최적화하는 집중형 워크숍 과정입니다 . 기초 수학 개념부터 실전 프로젝트 (Stable-Baselines3, Optuna 기반 튜닝 , 금융 데이터 활용 ) 까지 , 단 3 일 만에 강화학습 실무 역량을 완성합니다 . 강의문의 : multicore.it@gmail.com   ✅ [Standard] 핵심 이론 및 DQN 실습…

멀티코어

인공지능 전문 강사이력

인공지능 전문강사 저의 주력 분야는 인공지능 에이전트 개발 과 강화학습 입니다. 동국대 강의에서 Dify를 활용한 노코드 AI 에이전트 개발을 지도하며 최신 트렌드를 공유하고 있습니다. 또한 인프런 강의를 통해 기초부터 심화까지 강화학습의 모든 것을 체계적으로 가르쳐 왔습니다. 실무 경험을 바탕으로 이론과 실용적 응용을 아우르는 강의를 제공하여, 학습자가 현장에서 바로 적용할 수 있는 문제 해결 역량을 기르도록 돕는 것이 저의 강점입니다. 강…

멀티코어

DQN 알고리즘 전체 코드 리뷰

전체적인 DQN 코드 구조를 먼저 살펴보고 , 그 이후 세부적인 동작을 하나씩 차근차근 이해해보도록 하자 . 처음 이 코드를 접했을 때는 여러 함수와 클래스 , 흐름이 복잡하게 얽혀 있어 다소 낯설고 어렵게 느껴질 수 있다 . 하지만 DQN 구조는 대부분의 강화학습 실습에서 반복적으로 사용되며 , 실제로도 여러 프로젝트에 쉽게 재활용되는 구조이기 때문에 한 번만 잘 익혀두면 이후 다른 강화학습 알고리즘을 학습할 때도 큰 도움이 된다…

멀티코어

DQN 알고리즘 기본 구조

이제 본격적으로 코드를 통해 DQN 의 개념을 살펴보자 . 먼저 DQN 기능을 수행하는 Agent 클래스를 정의하고 , 그 구조와 흐름을 파악해보자 . Agent 클래스는 총 8 개의 함수로 구성되어 있으며 , 각각의 함수는 DQN 의 핵심 동작을 구현하고 있다 . DQN 알고리즘 Agent 클래스 기능 구성 (1) Agent 클래스를 생성하면 가장 먼저 build_model 함수가 호출되어 인공신경망 모델이 생성된다 . 이 신…

멀티코어

탐험(Exploration)과 탐욕(Exploitation)의 문제

강화학습에서 자주 언급되는 주요 개념 중 하나는 탐험 (Exploration) 과 탐욕 (Exploitation) 의 균형 문제이다 . 강화학습의 목적은 누적 보상을 최대화하는 방향으로 행동을 선택하는 것이며 , 이러한 선택 전략을 탐욕 정책이라고 부른다 . 탐욕 정책은 현재까지의 학습 결과를 바탕으로 가장 좋은 보상을 기대할 수 있는 행동만을 선택하는 방식이다 . 입실론 탐욕 정책 하지만 학습 초기에 정책이 충분히 성숙하지 않았을 때…

멀티코어

카트폴(Cartpole)

카트폴 OpenAI 에서는 강화학습을 쉽게 실습할 수 있도록 다양한 환경과 예제를 제공하고 있으며 , 그 중 대표적인 환경 중 하나가 바로 ‘ 카트폴 (CartPole)’ 이다 . 이번에는 이 카트폴 환경을 활용해 DQN 알고리즘으로 직접 구현해보도록 하자 . 카트폴은 막대가 달린 수레를 좌우로 움직이며 막대가 바닥으로 쓰러지지 않도록 중심을 유지하는 게임이다 . 막대는 수레 위에 세워져 있지만 고정되어 있지는 않기 때문에 좌우…

멀티코어

DQN(Deep Q Learning) 알고리즘 개념

지금까지는 강화학습의 이론적인 내용을 중심으로 살펴보았다면 , 이번 DQN 부터는 실제 코드를 통해 강화학습이 어떻게 작동하는지 직접 확인해볼 차례다 . 앞서 학습한 것처럼 , 우리는 인공신경망을 활용하여 행동가치함수 (Q 함수 ) 를 근사할 수 있다 . 이 때 신경망의 가중치 파라미터 w 를 사용하며 , 경사하강법을 통해 참된 행동가치함수와 신경망이 근사한 Q 함수 간의 차이를 최소화하는 방향으로 w 를 반복적으로 업데이트한다…

멀티코어

함수 근사법(Function Approximation)

지금까지 구한 가치 함수 (Value Function) 는 모두 배열로 만들 수 있는 형태였다 . 상태와 상태에 따른 행동이 프로그램으로 관리가 가능한 정도로 숫자가 정해져 있었기 때문이다 . 항해 환경을 배열 형태로 표현 그림과 같은 항해 환경을 살펴보자 . 시작 지점 S 에서 출발해 , 중간 지점인 R1, R2, R3 를 거쳐 도착 지점 F 에 도달하는 구조다 . 종료 상태인 F 를 제외하면 총 4 개의 상태 (S, R1,…

멀티코어
게시물 더보기
검색결과 없음