V[s] = Maxa (R[s,a] + γ Σs'∈S pr(s'|s, a) V[s']), γ∈[0, 1].
알고리즘은 기술하는 사람마다 조금조금씩 다른 점이 있을 수도 있지만 Q learning에 대한 기본적인 내용은 동일하다. 현재의 상태에서 행해지는 행동은 그 행동을 통한 당장의 보답과 미래의 불확실성으로 인해 γ 만큼 손실된, 그 행동으로 인한 다음 상태에서의 기대치의 합을 최대로 만드는 행동이다. 예를 들어 지금 배가 조금 고픈데 집에서 과자를 먹고 세 시간 후에 있을 성대한 저녁 만찬에서 조금 덜 먹느냐, 아니면 좀 더 참아서 만찬에서 실컷 먹느냐, 같은 것이다. 물론 이러한 예에서 R, γ, V의 값은 사람마다 다를 일이다.
재미있는 해석은 이 γ가 다음 시간으로 넘어가지 못 할 확률, 다시 말하면 내가 죽어버릴 확률, 이라고 생각하는 것이다. 지금 천 원을 받느냐, 십 년 후에 그 시대에서 지금의 백만원의 가치만큼의 돈을 받느냐는 내가 십 년 후에 살아있을까 하는 확률적 통계에 따라 결정된다는 것이다. 이렇게 생각하니 사람이 근시안적일 수록 γ가 작다라고도 해석할 수 있겠군. 하여튼.
내세의 삶이 현세의 삶보다 더 중요하다고 여기는 인간을 상상해보자. γt >> 1, while t is some probability distribution. 내세의 삶이 존재하지 않는다고 여기는 인간을 상상해 보자. γt = 0, while t is some probability distribution. 영생을 살 것이라고 믿는 인간을 상상해 보자. γ = 1.
인간이 늙어간다고 생각하자. γ는 줄어든다. 어쩌다가 한 번 대박날 가능성이 있는 선택은 점점 줄어든다. 새로 생긴 태국 음식점에서 새로운 음식을 시도하기 보다는 집 앞에 있는 순두부 집에서 늘상 먹던 순두부를 먹는 선택이 선호된다. 자신과 다른 입장을 가진 사람과 의견 일치를 볼 수 있다고 생각하는 것보다, 그냥 다른 입장을 가진 채 살아가는 것이 더 낫다고 생각하게 된다.
하지만 정말 예상치 못한 결과는 이것이다. 내가 백 시간 안에 죽는다고 생각하자. γ는 0에 가까워진다. '모리와 함께한 화요일'처럼 지인들과 자신의 심정을 이야기 하거나, 갑자기 자신의 삶을 직시하고 열심히 사는 일은 일어나지 않는다. 미래의 V가 낮던 말던 상관하지 않고 현재의 R를 최대화 시키거나 (돈을 천만원 쯤 꾼 다음에 흥청망청 쓴다), 혹은 더 근시안 적으로, 미래의 V에 관계 없이 현재의 R만을 최대화 시키는 (나가는 것도 귀찮아서 네이버와 다음만 왔다갔다거린다) 방법만이 있을 뿐이다.
얼마 남지 않았다, 브라운에서의 마지막 날이.
- Date
- 2007/04/07 13:13
- Category
- contemplation
- Response
- No Trackback , No Comment
Trackback URL : http://bluebrown.net/tattertools/BlueBrown/trackback/78