'2017/02/17'에 해당되는 글 1건

2017.02.17 TED 강연 "저드슨 브루어(Judson Brewer), 나쁜 습관을 없애는 간단한 방법" 그리고 강화학습

TED 강연 "저드슨 브루어(Judson Brewer), 나쁜 습관을 없애는 간단한 방법" 그리고 강화학습

Life/대학원 생활 2017. 2. 17. 02:29

이 강연에서는 "마음 챙김"이라고 부르는 훈련에 대해서 간단하게 설명하고 있다. 중독에 빠져드는 (예를 들어, 흡연이나 달콤한 음식을 끊임없이 찾는) 인간의 행동이 작동하는 과정을 계기, 행동, 보상의 과정을 거쳐서 뇌가 반복적으로 학습하는 것으로 설명한다.

이것은 전산학의 인공지능(기계학습) 분야에서 요즘 많이 주목받고 있는 "강화학습(reinforcement learning)"의 개념과 유사하다. 딱 들어맞지는 않지만...

나쁜 습관은 이를 촉발(trigger)시키는 초기 자극에 대한 행동의 결과를 "좋은 것(달콤한 느낌, 스트레스가 풀리는 기분 등)"으로 반복 학습하면서 뇌 속에서 그 중요도가 점점 커지면서 생겨난다.

초기 자극이 "스트레스를 받을 때, 기분이 좋지 않을 때"와 같은 조건이 되고, 그 때 당사자는 주어진 문제 상황을 해결하는 것과 상관없는 행동(흡연, 단 것 먹기)을 했는데, 그 때의 경험이 짜릿하고 기분이 좋다는 결과로 나타나면서 이를 보상으로 생각하고 뇌 속의 저장소에 저장하는 것이다.

강화학습의 경우, 현재 환경에 대한 상태를 입력값으로 제공받는 컴퓨터가, 그 환경에서 수행 가능한 행동들 중 하나를 선택해서 수행하고, 그 결과로 나타나는 새로운 상태에 대해서 보상을 학습한다. 이 과정을 반복해서, 긍정적인 보상이 최대화되는 행동을 알아내게 된다. 즉, 컴퓨터가 처음에는 취할 수 있는 행동 중 하나를 랜덤으로 선택하지만, 여러 가지 다른 행동들 중에서 보상이 높은 행동에 가중치를 부여함으로써 나중에 동일한(유사한) 상태가 다시 주어지면 빠르게 특정 행동을 취하도록 적응한다.

예를 들면, 스마트 전등이 있고 주어지는 입력값이 시간, 근처에 있는 사용자 이름만 주어지는 아주 단순한 환경을 상상해 보자. 저녁 7시에 사용자 A가 그 전등 근처에 오자, 스마트 전등은 랜덤하게 아무 색깔이나 골라서 불을 켜 주었고, 전등의 색깔에 대해서 사용자가 임의의 점수를 준다고 생각해 보자. 몇몇 색깔의 불에 대해서 높은 점수를 주지 않던 사용자 A가 어느 날 노란색 불을 보고 가장 높은 점수를 주었다. 그리고 며칠 동안 노란색 불이 켜질 때마다 가장 높은 점수를 주게 되면, 스마트 전등은 다음부터는 자동으로 저녁 7시에 사용자 A가 근처에 오면 노란색 불을 켜 주게 된다.

만약 사용자가 갑자기 노란색 불이 싫어서 더이상 노란색 불이 켜지지 않게 하고 싶으면 어떻게 해야 할까? 한동안은 지금까지 학습된 데이터 때문에 자동으로 노란색 불이 켜지겠지만, 사용자가 지속적으로 노란색 불이 켜질 때마다 가장 낮은 점수를 주게 되면, 어느 순간 노란색 불에 대한 보상이 다른 색깔들과 별 차이가 없게 되는 지점으로 돌아오게 된다. 그 지점에서 스마트 전등이 더이상 보상의 메리트가 없는 노란색보다 오히려 미세하게나마 보상이 더 큰 다른 색깔(또는 맨 처음처럼 또 랜덤으로 선택)의 불을 켜주게 될 것이고, 이 때 사용자가 좋아하는 다른 색깔에 대해서 높은 점수를 주기 시작하면, 그 때부터 스마트 전등은 더이상 노란색 불을 켜지 않고 다른 색깔의 불을 켜 주게 된다.

한 술 더 떠서, 노란색 불이 켜질 때마다 최하 점수를 주는 사용자가 그 직후에 직접 전등의 색깔을 파란색으로 바꾼 다음, 파란색 불이 켜진 상태에 대해서 최고 점수를 부여하게 되면 더 빠른 속도로 노란색 불을 켜서는 안된다는 결론에 이를 수 있다. 정확히 말하면, 노란색보다 파란색에 대한 보상이 더 커지므로 파란색 불을 켜는 행동을 빨리 하게 된다.

결국 TED 강연에서 언급되는 "마음 챙김"의 핵심도 이와 비슷한 것 같다. 나쁜 습관을 거의 기계적으로 행동에 옮기도록 만드는 과정에 대해서는 부정적인 보상을 주고, 나쁜 습관을 행동에 옮기지 않는 것(나쁜 습관을 실행하지 않는 의사결정을 내리는 행동)에 대해서는 긍정적인 보상을 주면 된다. (참 쉽죠? ㅋㅋ.. ㅠㅠ)

물론 그게 말처럼 쉽지 않다. 그래서 제안되는 해결책이 나쁜 습관이 발현되는 과정과 나쁜 습관 그 자체를 호기심을 갖고 따져 보라는 것이다. 저드슨 브루어는 왜 내가 지금의 나쁜 습관을 행동에 옮기고 있는지, 그 과정을 왕성한 호기심을 갖고 탐구하라고 조언한다.

사실 전두엽은 나쁜 습관을 행동에 옮기는 것이 나쁘다는 사실을 이성적으로 알고 있기 때문에, 그 전두엽의 활동을 꺼뜨리지 말고 호기심, 탐구정신과 같은 연료를 줘서 계속 생각해 보는 것으로 이해할 수 있겠다. 그러한 나쁜 습관을 지켜보는 즐거운(?) 탐구를 통해서 나쁜 습관이 초래하는 나쁜 결과와 나쁜 습관을 하지 않음으로써 얻는 기쁨/성취감에 대해서 잘 기억해 두자는 것이 핵심이다. 그렇게 탐구하고 잘 기억해 두는 과정을 반복하면 그것이 나쁜 습관과는 반대 방향으로 강화학습을 수행하는 과정이 된다.

이게 말처럼 쉬운지 의심하는 사람들이 많을 것이고, 나도 그 의심을 완전히 떨쳐내지는 못하고 있다. 하지만 확실한 것은, 나쁜 습관을 행동에 옮기는 것이 나쁘니까 스스로를 자꾸 더 자책하여 몰아붙이면서 스트레스를 받으면, 오히려 나쁜 습관을 내려놓는 것이 더 힘들어진다는 것이다. 그 이유는 하필이면 나쁜 습관을 행동에 옮기는 초기 자극의 대부분이 "스트레스를 받을 때"이기 때문이다. 나쁜 습관을 행동에 옮기고 나서 주어지는 뇌 속 호르몬(도파민)의 즐거움이 끝나고 나서 스스로를 몰아붙이고 자책하면 뇌는 또다시 스트레스를 받게 되고, 그 스트레스는 알다시피 나쁜 습관에 대한 초기 자극이 되므로 다시 나쁜 습관을 갈구하게 된다.

그러면 내 상황에 적용해 보자. (부끄럽지만 ㅠㅠ)

중요하면서 어려운 일을 앞두고서 그 일을 처리하는 것이 괴로워서 스트레스를 받을 때, 내가 자꾸만 SNS에 들어가 보거나 무의식중에 인터넷 뉴스를 켜서 재미있고 자극적인 내용의 소식을 찾는 경우가 많다. 뉴스 기사나 페이스북 포스팅 몇 개 읽어보는 것이 그리 많은 시간을 차지하지는 않는다. 그리고 가끔 신기하거나 충격적인 소식을 새롭게 접하면서 어딘지 모를 즐거움까지 느낀다. 일이 어려워서 손에 잘 안 잡힐 때마다 SNS, 뉴스기사를 잠깐씩 찾아보는 행동이 뇌에 일시적으로 도파민을 분비시키고 잠깐 즐겁게 해 주는 동시에 어려운 일처리에 대한 스트레스를 잊게 만든다.

바로 "시험기간에는 시험공부를 제외한 모든 것이 재미있다"는 말과 비슷하다.

결국 일은 일대로 진행이 느리게 되고, 마감 시한이 임박해서까지도 나는 오히려 더 스트레스를 받으면서 더 강한 자극으로 스트레스를 달래고자 방금 전에 이미 다 찾아봤던 SNS와 포털 사이트를 또다시 뒤지고 다니면서 뭔가 새로운 자극적인 소식을 갈구한다. 그러다가 가끔 나무위키와 같은 사이트로 흘러들어가서는 지금 당장 일처리에 필요하지 않은 광범위한 상식들을 읽느라 많은 시간을 소비하기까지 한다.

나는 왜 자꾸 일을 미루면서, 스트레스 유발의 주 원인이 되는 일을 빨리 해결하는 대신 그와 상관없는 지식들을 찾아서 머릿속에 넣으려고 하는 것일까?

대학원의 특성상 해당 일처리는 반드시 누군가의 리뷰를 거치는데, 내 결과물을 리뷰하는 대상이 누가 됐든지 상관없이 나는 모두에게 잘 보이고 싶은 마음이 있음을 알 수 있었다. 남들로부터 인정받고 싶고, 특히 그 일이 무엇이든 상관 없이 일을 못한다는 소리는 정말 너무 듣기 싫다. 그런데 내 입장에서 쉽게 해결이 안되는 꽤 복잡하고 어려운 일이 주어지면, 이것을 완벽하게 처리하지 못함으로써 얻게 되는 리뷰어의 부정적인 평가가 싫은 것이다.

사실은 나한테 어려운 일은 같이 그 일을 진행시켜야 하는 동료들(지도교수, 선배, 후배, 옆 연구실, 정부기관 등 모두 포함) 입장에서도 똑같이 어렵고, 그들도 답을 정확히 모르기도 한다. 따라서 내가 미지의 숲을 헤쳐 나가서 완벽하지 않게나마 얻어낸 중간 결과를 바탕으로 다음 단계를 같이 고민하는 과정이 연구다. 그런데 나는 나 혼자서 완벽하게, 물 흐르듯이, 빈틈없이 일을 처리해서 그들로부터 잘 했다는 평가를 받고 싶은 것이 아닐까?

지금 나는 그런 단기적이고 피상적인 주변의 평가로부터 얻는 즐거움보다 훨씬 더 근본적인 즐거움을 추구하고 있다는 사실을 다시 생각해 내는 것이 중요한 것 같다. 내 앞에 주어진 이 도전적인 일을 처리해서 얻는 결과물이 얼마나 매력적이고, 이를 통해 이 세상에서 이전까지 안되던 일을 되게 만드는 것이 얼마나 즐거운 일인지를 생각해 보는 것이 중요하다.

결국 가장 근본적인 것, 지금 내가 하고 있는 연구가 내 가치관으로 봤을 때 정말 즐거운 일이라는 사실을 지속적으로 되새겨야(remind) 한다. 그 일을 성취해 나가는 과정이 마치 아름다운 정상을 향해서 등산을 하는 것처럼 몸이 좀 힘들지만 즐거운 과정임을 인지해야 한다.

또한 그 일처리 과정에서의 세세한 부분에서 내가 실수를 하거나 남들보다 더디게 진행할 수는 있겠지만, 결국에는 연습하고 익숙해져서 그리 멀지않은 미래에는 내가 원하는 긍정적인 평가를 얻을 수 있게 될 것이다. 지금 당장 모르는 것 때문에 부끄러워하는 것이 아니고, 성장하는 과정이라고 생각할 필요가 있겠다.

그렇다면, 내가 지금 하는 연구는 내 가치관 측면에서 정말로 보람차고 매력적인가? 이것은 맞는 것 같다. 내가 이런 보람찬 일을 한다는 사실을 왜 망각하는 것일까? 왜냐하면 박사과정 졸업을 해야 하는데 자꾸 원치않게 연구기간이 연장되면서, 그 즐거운 일을 계속하고 있음에도 불구하고 내가 너무 못한다고 자책하기 때문이다. 사실 이런 자책을 할 필요가 없다는 점도 명심해야 하겠다. 좀 더디게 성장할 수도 있지, 방향이 틀린 것은 아니기 때문이다. 그리고 지금껏 쌓아 온 지식과 실력이 그리 못 쓸 정도로 엉망이지도 않다. 단지 원하는 때에 졸업요건에 해당하는 논문 실적이 나오지 못한 점 하나만 아쉬운 것이다.

지금 내가 하는 연구와 이 연구를 완성하는 과정에서 얻는 기쁨, C/C++ 코딩 능력을 점차 확장시켜 가는 데서 얻는 성취감, 네트워크 시뮬레이터에서 점차 제 모습을 찾아가는 나만의 모듈들의 유연한 작동 과정을 보는 기쁨을 생각하며, 꾸준하게 즐겁게 연구를 이어 나가고 싶다.

이 글을 쓰기 직전에 나는 분명히 나의 연구의 큰 그림을 실현하기 위한 네트워크 시뮬레이터 코드에서 3일 넘게 나를 괴롭히던 버그를 고쳤다. 그러니까 이제 자고 일어나서 또 즐겁게 다음 모듈을 만들어 봐야겠다. :)

저작자표시 비영리 변경금지

'Life > 대학원 생활' 카테고리의 다른 글

박사 졸업 요건이 될 지도 모를 논문 리젝 (0)	2017.06.08
박사과정으로써 느끼는 운영의 중압감: 과제, 연구실, 그리고 인생 (7)	2017.04.09
결벽증과 연구 진행의 (나쁜) 상관 관계? (0)	2016.09.27
2016.08.09 (2)	2016.08.09
소프트웨어 설계를 잘 하는 것과 최소한의 경험치에 대한 생각 (0)	2016.07.28

Bryan_

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28

'2017/02/17'에 해당되는 글 1건

TED 강연 "저드슨 브루어(Judson Brewer), 나쁜 습관을 없애는 간단한 방법" 그리고 강화학습

'Life > 대학원 생활' 카테고리의 다른 글

카테고리

태그목록

달력

Bryan_

LATEST FROM OUR BLOG

LATEST COMMENTS

BLOG VISITORS

티스토리툴바