LEVEL 4
AI/머신러닝 입문 코스
최적의 경로: 강화 로직
파이썬의 핵심을 찌르는 단계별 퀴즈를 풀어보세요.
섹션 완료도
0%
획득 가능 포인트
270 P
01
02
03
탐험(Exploration) vs 이용(Exploitation)
새로운 길을 찾아볼지(탐험), 아는 길로만 갈지(이용) 결정하는 엡실론-그리디(E-Greedy) 전략의 로직을 완성하세요.
미션 시작04
Q-Table 업데이트: 미래 가치 반영
행동의 가치를 저장하는 Q-Table의 값을 수정하는 코드입니다. 현재 보상에 미래의 기대치를 더하는 로직을 완성하세요.
05
할인율(Discount Factor)의 역할
미래의 보상을 현재의 가치로 환산할 때 사용하는 할인율(Gamma)의 개념을 코드로 이해해 보세요.
06
에피소드와 반복 학습 루프
에이전트가 목표를 달성할 때까지 한 주기의 학습(에피소드)을 수행하는 표준 루프를 완성하세요.
07
정책(Policy)과 최적 행동 선택
학습된 정보를 바탕으로 특정 상태에서 어떤 행동을 할지 결정하는 기준인 정책(Policy)을 구현해 보세요.