๊ฐํ ํ์ต(RL)์ ์ธ๊ณต ์ง๋ฅ(AI) ๋ฐ ๊ธฐ๊ณ ํ์ต์ ํ์ ๋ถ์ผ๋ก, ์ง๋ฅํ ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ ์์ฉํ๊ณ ์์ฌ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ฉฐ ํน์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํ ์ต์ ์ ์ ์ฑ ์ ํ์ตํ๋๋ก ๊ต์กํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์์ด์ ํธ๊ฐ ํ๊ฒฝ์ผ๋ก๋ถํฐ ๊ธ์ ์ ์ด๊ฑฐ๋ ๋ถ์ ์ ์ธ ํผ๋๋ฐฑ(๋ณด์ ๋๋ ์ฒ๋ฒ)์ ๋ฐ์ ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋์ ์ํํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๋ ์ธ๊ฐ๊ณผ ๋๋ฌผ์ ํ๋ ํ์ต ๊ณผ์ ์์ ์๊ฐ์ ๋ฐ์์ต๋๋ค. ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ํ์ฐฉ์ค๋ฅผ ํตํด ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ํ๋์ ์ต์ ํํ๋ ๋ฅ๋ ฅ๊ณผ ๊ณผ๊ฑฐ ๊ฒฝํ์์ ์ป์ ์ง์์ ํ์ฉํ์ฌ ๋ฏธ๋์ ์์ฌ ๊ฒฐ์ ์ ๊ฐ์ ํ๋ ๋ฅ๋ ฅ์ผ๋ก ๊ตฌ๋ณ๋ฉ๋๋ค. ์ต๊ทผ ๋ช ๋ ๋์ RL์ ๋ก๋ด๊ณตํ, ๊ธ์ต, ์์จ์ฃผํ์ฐจ, ๊ฒ์ ํ๋ ์ด ๋ฑ ๋ค์ํ ์์ญ์์ ์๋นํ ์ฑ๊ณต์ ๊ฑฐ๋๋ฉฐ ๋๋ผ์ด ์ ์ฌ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
๊ฐํ ํ์ต ํ๋ ์์ํฌ์ ํต์ฌ ๊ตฌ์ฑ ์์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์์ด์ ํธ(Agent) : ํ์ตํ๊ณ ์์ฌ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ์ง๋ฅ์ ์ธ ๊ฐ์ฒด๋ก, ํ๊ฒฝ์ ํ์ํ๊ณ ํน์ ์ ์ฑ ์ ๋ฐ๋ผ ์กฐ์น๋ฅผ ์ทจํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ๋ ๋๋ค.
- ํ๊ฒฝ(Environment) : ๋ฌธ์ ์์ญ๊ณผ ๊ด๋ จ๋ ๋ชจ๋ ์ ๋ณด๋ฅผ ์บก์ํํ๊ณ ์์ด์ ํธ์๊ฒ ๊ด์ฐฐ๊ณผ ๋ณด์์ ์ ๊ณตํ๋ ์์ด์ ํธ๊ฐ ์ํธ ์์ฉํ๋ ์ฃผ๋ณ ๋๋ ์ปจํ ์คํธ์ ๋๋ค.
- ์ํ(State) : ํ๊ฒฝ ๋ด์์ ์์ด์ ํธ์ ํ์ฌ ์ํฉ์ ํํํ๋ฉฐ, ์์ฌ ๊ฒฐ์ ์ ํ์ํ ๋ชจ๋ ๊ด๋ จ ์ ๋ณด๋ฅผ ์บก์ฒํฉ๋๋ค.
- ํ๋(Action) : ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ๋ฏธ๋ ์ํ์ ์ํฅ์ ๋ฏธ์น๋ ์ ํ์ผ๋ก, ํ๋ ๊ณต๊ฐ์ผ๋ก ์๋ ค์ง ๊ฐ๋ฅํ ํ๋ ์ธํธ์์ ์ ํ๋ฉ๋๋ค.
- ์ ์ฑ (Policy) : ์์ด์ ํธ๊ฐ ํน์ ์ํ์์ ์คํํ ์์ ์ ๊ฒฐ์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ์ ๋ต์ผ๋ก, ์ํ์์ ์์ ์ผ๋ก์ ๋งคํ์ผ๋ก ์ ์๋ฉ๋๋ค.
- ๋ณด์(Reward) : ํน์ ์กฐ์น๋ฅผ ์ทจํ ๊ฒฐ๊ณผ๋ก ์์ด์ ํธ๊ฐ ํ๊ฒฝ์ผ๋ก๋ถํฐ ์์ ํ ์ค์นผ๋ผ ํผ๋๋ฐฑ ์ ํธ๋ก, ์ฃผ์ด์ง ์ํ์์ ํด๋น ์กฐ์น์ ๋ฐ๋์งํ ์ ๋๋ฅผ ๋ฐ์ํฉ๋๋ค. ์์ด์ ํธ์ ๋ชฉํ๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ป์ ๋์ ๋ณด์์ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค.
- ๊ฐ์น ํจ์ : ์ฃผ์ด์ง ์ํ์์ ์์ํ์ฌ ํน์ ์ ์ฑ ์ ๋ฐ๋ผ ์์ด์ ํธ๊ฐ ์ป์ ์ ์๋ ์์ ๋์ ๋ณด์์ ์ถ์ ํ๋ ํจ์์ ๋๋ค. ์ด ๊ธฐ๋ฅ์ ๋ค์ํ ์ ์ฑ ์ ํ์ง์ ํ๊ฐํ๊ณ ์์ด์ ํธ์ ์์ฌ ๊ฒฐ์ ํ๋ก์ธ์ค๋ฅผ ์๋ดํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํฌ๊ฒ ์ธ ๊ฐ์ง ์ฃผ์ ๋ฒ์ฃผ๋ก ๋ถ๋ฅ๋ ์ ์์ต๋๋ค.
- ๊ฐ์น ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ : ํน์ ์ ์ฑ ์ด๋ ์ต์ ์ ์ ์ฑ ์ ๊ฐ์น ํจ์๋ฅผ ์ง์ ์ ์ผ๋ก ์ถ์ ํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ๊ฐ์น ํจ์๊ฐ ํ์ต๋๋ฉด ์์ด์ ํธ๋ ์ถ์ ๋ ๊ฐ์น๋ฅผ ์ต๋ํํ๋ ํ๋์ ์ ํํฉ๋๋ค. ๋๋ฆฌ ์ฌ์ฉ๋๋ ๊ฐ์น ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์๋ Q-learning, Deep Q-Networks(DQN) ๋ฐ Double DQN์ด ํฌํจ๋ฉ๋๋ค.
- ์ ์ฑ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ : ์ด ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์น ํจ์ ์์ด ์ ์ฑ ์ ์ง์ ํ์ตํฉ๋๋ค. ์์ด์ ํธ๋ ํ์ต๋ ์ ์ฑ ๋งค๊ฐ๋ณ์์ ๋ฐ๋ผ ์์ ์ ์ ํํฉ๋๋ค. ์ ์ฑ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ์๋ก๋ REINFORCE, PPO(Proximal Policy Optimization) ๋ฐ TRPO(Trust Region Policy Optimization)๊ฐ ์์ต๋๋ค.
- ํ์์-๋นํ ์๊ณ ๋ฆฌ์ฆ : ์ด ์๊ณ ๋ฆฌ์ฆ์ ํ์ต ํ๋ก์ธ์ค ์ค์ ์ ์ฑ ๊ทธ๋ผ๋ฐ์ด์ ์ถ์ (ํ์์)์ ๊ฐ์ ํ๋ ๋ฐ ๋์์ด ๋๋ ๋ณ๋์ ๊ฐ ์ถ์ ๊ธฐ(๋นํ๊ฐ)๋ฅผ ํ์ฉํ์ฌ ๊ฐ ๊ธฐ๋ฐ ๋ฐ ์ ์ฑ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฅ์ ์ ๊ฒฐํฉํฉ๋๋ค. ์ธ๊ธฐ ์๋ Actor-Critic ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ A2C(Advantage Actor-Critic), SAC(Soft Actor-Critic) ๋ฐ DDPG(Deep Deterministic Policy Gradient)๊ฐ ์์ต๋๋ค.
๊ฐํ ํ์ต์ ์ต๊ทผ ๋ช ๋ ๋์ ๋ค์ํ๊ณ ๋ณต์กํ ์์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ฐํํ์ต๊ณผ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ๊ฒฐํฉํ DeepMind์ AlphaGo ๋ฐ AlphaZero ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋, ์ฒด์ค, ์ฅ๊ธฐ ๊ฒ์์์ ์ด์ธ์ ์ธ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. RL์ ๋ ๋ค๋ฅธ ํ๊ธฐ์ ์ธ ์์ฉ ํ๋ก๊ทธ๋จ์ OpenAI์ Dota 2 ๋ด์ผ๋ก, ๋งค์ฐ ๋ณต์กํ๊ณ ์ ๋ต์ ์ธ ์จ๋ผ์ธ ๋ฉํฐํ๋ ์ด์ด ๊ฒ์์์ ์ ๋ฌธ ์ธ๊ฐ ํ๋ ์ด์ด๋ฅผ ์ด๊ธธ ์ ์๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. RL์ ๋ํ ๊ธ์ต ๊ฑฐ๋ ์ ๋ต์ ์ต์ ํํ๊ณ ํจ์จ์ ์ธ ์๋์ง ๊ด๋ฆฌ ์์คํ ์ ๊ฐ๋ฐํ๋ฉฐ ์ถ์ฒ ์์คํ ์ ๊ฐ์ ํ๋ ๋ฐ์๋ ์ฌ์ฉ๋์์ต๋๋ค.
AppMaster ํ๋ซํผ์์๋ ๋ฐฑ์๋, ์น ๋ฐ ๋ชจ๋ฐ์ผ ์ ํ๋ฆฌ์ผ์ด์ ๊ฐ๋ฐ์ ๊ฐํ ํ์ต๊ณผ ๊ฐ์ ๊ณ ๊ธ ๊ธฐ๊ณ ํ์ต ๊ธฐ์ ์ ํตํฉํ๋ ๊ฒ์ด ์ค์ํ๋ค๋ ๊ฒ์ ์ธ์ํ๊ณ ์์ต๋๋ค. ๋น์ฌ์ ํฌ๊ด์ ์ธ ํตํฉ ๊ฐ๋ฐ ํ๊ฒฝ(IDE)์ ์ฌ์ฉ์์๊ฒ ๋ณต์กํ ์์ฌ ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด RL ๋ชจ๋ธ์ ๊ตฌ์ถ, ๊ต์ก ๋ฐ ๋ฐฐํฌํ ์ ์๋ ์๋จ์ ์ ๊ณตํฉ๋๋ค. AppMaster ์ ์ง๊ด์ ์ธ no-code ์ธํฐํ์ด์ค๋ฅผ ํตํด ์ ๋ฌธ๊ฐ๊ฐ ์๋ ์ฌ์ฉ์๋ ๊ฐํ ํ์ต์ ํ์ ํ์ฉํ๊ณ ๋ค์ํ ์ฌ์ฉ ์ฌ๋ก์ ๋ง๊ฒ ๊ฐ๋ ฅํ๊ณ ํ์ฅ ๊ฐ๋ฅํ AI ์๋ฃจ์ ์ ๊ตฌ์ถํ ์ ์์ต๋๋ค.