일상

플랫폼 서비스 보다는 기술 스타트업

콘파냐 2022. 9. 19. 22:51
반응형

사이드 프로젝트로 하는 일에 강화학습을 사용할 일이 생겼다.

사실 4년전 강화학습에 관심을 갖고 이론적인 부분은 대충 훑어본 후 간단한 길 찾기 강화학습 모델을 만든 적이 있다. 강화학습이론을 제대로 공부하고 만든 건 아니었는데 지금 강화학습을 제대로 공부하면서 그 당시 어떻게 저걸 만들었을 까하는 생각이 들었다.

실제 강화학습에 대한 이론은 상당히 철학적이다. MDP라는 마르코프 디시전 프로세스는 강화학습을 위한 문제정의 방법이며, 다양한 방정식들을 토대로 밸만 기대 방정식을 만든다. 여기에 신경망을 덧붙여 심층 강화학습을 하거나 다양한 변형이 있는 걸로 알고 있다.

이론에 대한 부분만 정독으로 5번 이상 읽고 있다. 보면 볼 수록 참 신비로운 이론이다.

인간이 걸음마를 배우거나 자전거를 배우는 것이 일종에 강화학습이며 강화학습 이론의 토대가 된다.

사실 현재 회사일 때문에 읽는 책만 여러권인데 강화학습을 공부할 시간이 없긴하지만 사이드 프로젝트를 해결하고 싶은 마음이 간절하다.

 

반응형