파이온 - Python Online Learning

유형 필터:

객관식

강화학습에서 "에이전트(Agent)가 환경에서 받는 피드백"을 의미하는 용어는?

미션 시작

빈칸 채우기

강화학습에서 주인공(에이전트)이 상태에 따라 내리는 결정과 그에 따른 피드백을 뜻하는 용어를 빈칸에 채우세요.

미션 시작

빈칸 채우기

새로운 길을 찾아볼지(탐험), 아는 길로만 갈지(이용) 결정하는 엡실론-그리디(E-Greedy) 전략의 로직을 완성하세요.

미션 시작

빈칸 채우기

행동의 가치를 저장하는 Q-Table의 값을 수정하는 코드입니다. 현재 보상에 미래의 기대치를 더하는 로직을 완성하세요.

미션 시작

빈칸 채우기

미래의 보상을 현재의 가치로 환산할 때 사용하는 할인율(Gamma)의 개념을 코드로 이해해 보세요.

미션 시작

빈칸 채우기

에이전트가 목표를 달성할 때까지 한 주기의 학습(에피소드)을 수행하는 표준 루프를 완성하세요.

미션 시작

빈칸 채우기

학습된 정보를 바탕으로 특정 상태에서 어떤 행동을 할지 결정하는 기준인 정책(Policy)을 구현해 보세요.

미션 시작

최적의 경로: 강화 로직