반응형

세상이 너무 빨리 변한다.

딥러닝을 필두로 하는 인공지능이 사람만큼 (아니 어쩌면 사람보다 더 뛰어나게) 특정 인물의 얼굴을 인식한다. 개와 고양이를 겨우 분류할 수 있게 된 것이 그리 오래 전 뉴스가 아닌데, 이제는 실시간 영상에서 미리 알고 있는 물체(자동차, 동식물, 인공 구조물 따위)를 인식할 수 있다. 물론 아직은 실시간 영상에서 인식하는 정확도가 아주 높지는 않지만, 고화질 비디오에서 화면에 보이는 모든 것을 평균 95%의 정확도로 인식해 내는 것은 시간 문제이다.

강화학습은 우리의 일상에 꽤 많이 침투해 있다. 스마트폰만 살펴 봐도 내가 눈치채지 못하는 사이에 결정과 행동을 학습하고, 다음 번에 스마트폰 화면을 켰을 때에는 적절한 화면 밝기와 진동 모드, 잠금화면 해제 여부 등을 나에게 먼저 추천해 주는 건방진(?) 수준에 이르렀다.

생산적 적대 신경망(Generative Adversarial Network; GAN)은 특정 화가의 화풍을 따라하면서 새로운 그림을 창조하고, 세상에 없는 음악을 만들어 내기도 하며, 특정 사람의 학습된 얼굴을 바탕으로 가짜 비디오까지 만들어 내는(deepfake) 수준이 되었다. 그로 인해 유명인의 가짜 영상을 만드는 등 벌써부터 폐해가 생겨나고 있다.
글 생성 쪽으로 집중한 GPT-2 [1]는 아무 주제나 영어 문장으로 던져 주면, A4 용지 두어장 분량의 글을 의외로 그럴 듯하게 작성해 낸다. OpenAI에서 800만여 개의 웹사이트를 학습한 결과물인 Lite version (...)만 공개하고, 그보다 더 큰 버전은 딥페이크와 마찬가지로 사회적인 폐해가 심할 것이라고 판단해서 비공개로 결정했다고 한다. "오픈"이라는 단어가 이름에 들어가 있는 단체에서 위험성 때문에 일부러 공개를 안 하는 것이 어이가 없지만, lite version이 생성해 내는 샘플만 읽어 봐도 생각보다 전문적인 느낌이 드는 문장과 그럴 듯한 흐름에 묘한 기분을 느끼게 된다. 물론 문장 간의 연결이 아직까지는 이상하고, 같은 맥락의 말을 여러 번 반복하는 등 궤변으로 보이지만, 이것이 lite version의 성능이고 정식 버전은 훨씬 더 강력할 것이다. 즉, AI가 그럴 듯한 가짜 글을 써서 사람을 설득시켜서 말도 안되는 결정을 내리게 하는 상황도 언젠가는 일어날 수 있는 일이 된 것이다.


현재는 인공지능 기술이 특정한 분야와 특정한 목적에 맞추어 개발되고 있고, 인공일반지능(Artificial General Intelligence; AGI)은 아직 없다. 그러나 각 분야에서 인공지능 기술이 보여 주는 놀라운 성능을 볼 때, 시간이 걸리겠지만 언젠가 만들어질 수도 있는 AGI가 인류에게 주는 사회적 영향력에 대해서는 최대한 보수적으로 바라봐야 하지 않을까?

오늘날과 같은 자유로운 사회에서 AGI를 개발하고자 하는 방향 자체를 막는 것은 불가능하고, 이미 시간적으로도 늦은 것 같다. 일각에서는(빌 게이츠, 일론 머스크 등) AGI가 지구상에 엄청난 재앙을 안겨다 줄 것이라고 경고하고, 다른 쪽에서는(레이 커즈와일 등) 아예 우리가 신인류로 업그레이드 되는 유토피아를 상상하는 엄청난 낙관론을 주장다.

AGI가 어느 쪽으로 가던지 결국 그 방향을 최대한 올바른 방향으로 두고서 인류를 보호/보존하기 위한 노력은 세계적인 차원에서 계속될 것이다 (UN 같은 단체를 통한 개입이 필요할 것이다). 그보다 나는 AGI와 같은 존재가 보편적인 인간의 지성과 물리적 능력을 모두 뛰어넘게 되었을 때, 그리고 그 존재가 기계적으로 대량 생산이 가능할 때, 인류의 진정한 존재 목적과 의미는 무엇인지 묻고 싶다.

 

딥러닝, 강화학습, GAN 등의 근간이 되는 인공 신경망은 인간의 뇌 구조의 일부를 모방한 것이다. 거꾸로 생각해서 인간이 일상 생활 속에서 외부 자극을 받아들이고 신경 세포에 기억을 해 두고, 잠을 자면서 뇌의 활동을 통해서 신경 세포 간에 새로운 연결을 만들거나, 기존 연결을 강화시키거나 거꾸로 약화시키는 등의 작업을 거치고, 또다른 일상 생활 속에서 자신의 뇌를 사용하여 직관, 창의성 등을 발휘하며 살아 간다.

아직까지는 한 사람의 뇌를 인공 신경망으로 만들기에는 용량이 지나치게 커서 불가능한 것이 (딥러닝 기준에서 노드 수와 hidden layer 수가 현존하는 슈퍼컴퓨터 용량을 아득하게 뛰어넘는) 다행이지만, 인간의 뇌 속에서 뉴런을 통한 신경 물질의 전달 속도에 비해 압도적으로 빠른 컴퓨터의 신호 전달 속도는 어쨌든 저용량의 AGI라고 하더라도 산업적으로 상당히 뛰어난 생산성을 보일 것이다. 생산 활동을 하지 않는 인간 개인의 입장에서, 자신의 존재 목적과 의미를 찾지 못한다면, 좀더 멀리 보자면 더 나은 미래를 향한 희망을 상실한다면, 그리고 그런 인간이 매우 많다면?

내 생각에는 마지막으로 남는 것은 진부하게 들리겠지사랑일 지도 모르겠다. 서로 상호작용하고, 사랑하면서 기쁨을 느끼는 것. 인풋에 대해 특정 아웃풋을 극대화하기 위해서 내리는 판단이 아닌, 말 그대로 사랑하기 때문에 utility function의 결과값에 전혀 상관 없이 내리는 모든 결정만큼은 인공지능이 학습할 수 없기를 바란다.


[1] https://openai.com/blog/better-language-models/


반응형

'IT' 카테고리의 다른 글

Networks / 3-way handshaking  (0) 2007.10.17
블로그 이미지

Bryan_

,
반응형

TED 강연 링크: http://tv.naver.com/v/960111



이 강연에서는 "마음 챙김"이라고 부르는 훈련에 대해서 간단하게 설명하고 있다. 중독에 빠져드는 (예를 들어, 흡연이나 달콤한 음식을 끊임없이 찾는) 인간의 행동이 작동하는 과정을 계기, 행동, 보상의 과정을 거쳐서 뇌가 반복적으로 학습하는 것으로 설명한다.


이것은 전산학의 인공지능(기계학습) 분야에서 요즘 많이 주목받고 있"강화학습(reinforcement learning)"의 개념과 유사하다. 딱 들어맞지는 않지만...


나쁜 습관은 이를 촉발(trigger)시키는 초기 자극에 대한 행동의 결과를 "좋은 것(달콤한 느낌, 스트레스가 풀리는 기분 등)"으로 반복 학습하면서 뇌 속에서 그 중요도가 점점 커지면서 생겨난다.

초기 자극이 "스트레스를 받을 때, 기분이 좋지 않을 때"와 같은 조건이 되고, 그 때 당사자는 주어진 문제 상황을 해결하는 것과 상관없는 행동(흡연, 단 것 먹기)을 했는데, 그 때의 경험이 짜릿하고 기분이 좋다는 결과로 나타나면서 이를 보상으로 생각하고 뇌 속의 저장소에 저장하는 것이다.


강화학습의 경우, 현재 환경에 대한 상태를 입력값으로 제공받는 컴퓨터가, 그 환경에서 수행 가능한 행동들 중 하나를 선택해서 수행하고, 그 결과로 나타나는 새로운 상태에 대해서 보상을 학습한다. 이 과정을 반복해서, 긍정적인 보상이 최대화되는 행동을 알아내게 된다. 즉, 컴퓨터가 처음에는 취할 수 있는 행동 중 하나를 랜덤으로 선택하지만, 여러 가지 다른 행동들 중에서 보상이 높은 행동에 가중치를 부여함으로써 나중에 동일한(유사한) 상태가 다시 주어지면 빠르게 특정 행동을 취하도록 적응한다.


예를 들면, 스마트 전등이 있고 주어지는 입력값이 시간, 근처에 있는 사용자 이름만 주어지는 아주 단순한 환경을 상상해 보자. 저녁 7시에 사용자 A가 그 전등 근처에 오자, 스마트 전등은 랜덤하게 아무 색깔이나 골라서 불을 켜 주었고, 전등의 색깔에 대해서 사용자가 임의의 점수를 준다고 생각해 보자. 몇몇 색깔의 불에 대해서 높은 점수를 주지 않던 사용자 A가 어느 날 노란색 불을 보고 가장 높은 점수를 주었다. 그리고 며칠 동안 노란색 불이 켜질 때마다 가장 높은 점수를 주게 되면, 스마트 전등은 다음부터는 자동으로 저녁 7시에 사용자 A가 근처에 오면 노란색 불을 켜 주게 된다.


만약 사용자가 갑자기 노란색 불이 싫어서 더이상 노란색 불이 켜지지 않게 하고 싶으면 어떻게 해야 할까? 한동안은 지금까지 학습된 데이터 때문에 자동으로 노란색 불이 켜지겠지만, 사용자가 지속적으로 노란색 불이 켜질 때마다 가장 낮은 점수를 주게 되면, 어느 순간 노란색 불에 대한 보상이 다른 색깔들과 별 차이가 없게 되는 지점으로 돌아오게 된다. 그 지점에서 스마트 전등이 더이상 보상의 메리트가 없는 노란색보다 오히려 미세하게나마 보상이 더 큰 다른 색깔(또는 맨 처음처럼 또 랜덤으로 선택)의 불을 켜주게 될 것이고, 이 때 사용자가 좋아하는 다른 색깔에 대해서 높은 점수를 주기 시작하면, 그 때부터 스마트 전등은 더이상 노란색 불을 켜지 않고 다른 색깔의 불을 켜 주게 된다.

한 술 더 떠서, 노란색 불이 켜질 때마다 최하 점수를 주는 사용자가 그 직후에 직접 전등의 색깔을 파란색으로 바꾼 다음, 파란색 불이 켜진 상태에 대해서 최고 점수를 부여하게 되면 더 빠른 속도로 노란색 불을 켜서는 안된다는 결론에 이를 수 있다. 정확히 말하면, 노란색보다 파란색에 대한 보상이 더 커지므로 파란색 불을 켜는 행동을 빨리 하게 된다.


결국 TED 강연에서 언급되는 "마음 챙김"의 핵심도 이와 비슷한 것 같다. 나쁜 습관을 거의 기계적으로 행동에 옮기도록 만드는 과정에 대해서는 부정적인 보상을 주고, 나쁜 습관을 행동에 옮기지 않는 것(나쁜 습관을 실행하지 않는 의사결정을 내리는 행동)에 대해서는 긍정적인 보상을 주면 된다. (참 쉽죠? ㅋㅋ.. ㅠㅠ)


물론 그게 말처럼 쉽지 않다. 그래서 제안되는 해결책이 나쁜 습관이 발현되는 과정과 나쁜 습관 그 자체를 호기심을 갖고 따져 보라는 것이다. 저드슨 브루어는 왜 내가 지금의 나쁜 습관을 행동에 옮기고 있는지, 그 과정을 왕성한 호기심을 갖고 탐구하라고 조언한다.


사실 전두엽은 나쁜 습관을 행동에 옮기는 것이 나쁘다는 사실을 이성적으로 알고 있기 때문에, 그 전두엽의 활동을 꺼뜨리지 말고 호기심, 탐구정신과 같은 연료를 줘서 계속 생각해 보는 것으로 이해할 수 있겠다. 그러한 나쁜 습관을 지켜보는 즐거운(?) 탐구를 통해서 나쁜 습관이 초래하는 나쁜 결과와 나쁜 습관을 하지 않음으로써 얻는 기쁨/성취감에 대해서 잘 기억해 두자는 것이 핵심이다. 그렇게 탐구하고 잘 기억해 두는 과정을 반복하면 그것이 나쁜 습관과는 반대 방향으로 강화학습을 수행하는 과정이 된다.


이게 말처럼 쉬운지 의심하는 사람들이 많을 것이고, 나도 그 의심을 완전히 떨쳐내지는 못하고 있다. 하지만 확실한 것은, 나쁜 습관을 행동에 옮기는 것이 나쁘니까 스스로를 자꾸 더 자책하여 몰아붙이면서 스트레스를 받으면, 오히려 나쁜 습관을 내려놓는 것이 더 힘들어진다는 것이다. 그 이유는 하필이면 나쁜 습관을 행동에 옮기는 초기 자극의 대부분이 "스트레스를 받을 때"이기 때문이다. 나쁜 습관을 행동에 옮기고 나서 주어지는 뇌 속 호르몬(도파민)의 즐거움이 끝나고 나서 스스로를 몰아붙이고 자책하면 뇌는 또다시 스트레스를 받게 되고, 그 스트레스는 알다시피 나쁜 습관에 대한 초기 자극이 되므로 다시 나쁜 습관을 갈구하게 된다.



그러면 내 상황에 적용해 보자. (부끄럽지만 ㅠㅠ)


중요하면서 어려운 일을 앞두고서 그 일을 처리하는 것이 괴로워서 스트레스를 받을 때, 내가 자꾸만 SNS에 들어가 보거나 무의식중에 인터넷 뉴스를 켜서 재미있고 자극적인 내용의 소식을 찾는 경우가 많다. 뉴스 기사나 페이스북 포스팅 몇 개 읽어보는 것이 그리 많은 시간을 차지하지는 않는다. 그리고 가끔 신기하거나 충격적인 소식을 새롭게 접하면서 어딘지 모를 즐거움까지 느낀다. 일이 어려워서 손에 잘 안 잡힐 때마다 SNS, 뉴스기사를 잠깐씩 찾아보는 행동이 뇌에 일시적으로 도파민을 분비시키고 잠깐 즐겁게 해 주는 동시에 어려운 일처리에 대한 스트레스를 잊게 만든다.

바로 "시험기간에는 시험공부를 제외한 모든 것이 재미있다"는 말과 비슷하다.


결국 일은 일대로 진행이 느리게 되고, 마감 시한이 임박해서까지도 나는 오히려 더 스트레스를 받으면서 더 강한 자극으로 스트레스를 달래고자 방금 전에 이미 다 찾아봤던 SNS와 포털 사이트를 또다시 뒤지고 다니면서 뭔가 새로운 자극적인 소식을 갈구한다. 그러다가 가끔 나무위키와 같은 사이트로 흘러들어가서는 지금 당장 일처리에 필요하지 않은 광범위한 상식들을 읽느라 많은 시간을 소비하기까지 한다.


나는 왜 자꾸 일을 미루면서, 스트레스 유발의 주 원인이 되는 일을 빨리 해결하는 대신 그와 상관없는 지식들을 찾아서 머릿속에 넣으려고 하는 것일까?

대학원의 특성상 해당 일처리는 반드시 누군가의 리뷰를 거치는데, 내 결과물을 리뷰하는 대상이 누가 됐든지 상관없이 나는 모두에게 잘 보이고 싶은 마음이 있음을 알 수 있었다. 남들로부터 인정받고 싶고, 특히 그 일이 무엇이든 상관 없이 일을 못한다는 소리는 정말 너무 듣기 싫다. 그런데 내 입장에서 쉽게 해결이 안되는 꽤 복잡하고 어려운 일이 주어지면, 이것을 완벽하게 처리하지 못함으로써 얻게 되는 리뷰어의 부정적인 평가가 싫은 것이다.


사실은 나한테 어려운 일은 같이 그 일을 진행시켜야 하는 동료들(지도교수, 선배, 후배, 옆 연구실, 정부기관 등 모두 포함) 입장에서도 똑같이 어렵고, 그들도 답을 정확히 모르기도 한다. 따라서 내가 미지의 숲을 헤쳐 나가서 완벽하지 않게나마 얻어낸 중간 결과를 바탕으로 다음 단계를 같이 고민하는 과정이 연구다. 그런데 나는 나 혼자서 완벽하게, 물 흐르듯이, 빈틈없이 일을 처리해서 그들로부터 잘 했다는 평가를 받고 싶은 것이 아닐까?


지금 나는 그런 단기적이고 피상적인 주변의 평가로부터 얻는 즐거움보다 훨씬 더 근본적인 즐거움을 추구하고 있다는 사실을 다시 생각해 내는 것이 중요한 것 같다. 내 앞에 주어진 이 도전적인 일을 처리해서 얻는 결과물이 얼마나 매력적이고, 이를 통해 이 세상에서 이전까지 안되던 일을 되게 만드는 것이 얼마나 즐거운 일인지를 생각해 보는 것이 중요하다.

결국 가장 근본적인 것, 지금 내가 하고 있는 연구가 내 가치관으로 봤을 때 정말 즐거운 일이라는 사실을 지속적으로 되새겨야(remind) 한다. 그 일을 성취해 나가는 과정이 마치 아름다운 정상을 향해서 등산을 하는 것처럼 몸이 좀 힘들지만 즐거운 과정임을 인지해야 한다.

또한 그 일처리 과정에서의 세세한 부분에서 내가 실수를 하거나 남들보다 더디게 진행할 수는 있겠지만, 결국에는 연습하고 익숙해져서 그리 멀지않은 미래에는 내가 원하는 긍정적인 평가를 얻을 수 있게 될 것이다. 지금 당장 모르는 것 때문에 부끄러워하는 것이 아니고, 성장하는 과정이라고 생각할 필요가 있겠다.


그렇다면, 내가 지금 하는 연구는 내 가치관 측면에서 정말로 보람차고 매력적인가? 이것은 맞는 것 같다. 내가 이런 보람찬 일을 한다는 사실을 왜 망각하는 것일까? 왜냐하면 박사과정 졸업을 해야 하는데 자꾸 원치않게 연구기간이 연장되면서, 그 즐거운 일을 계속하고 있음에도 불구하고 내가 너무 못한다고 자책하기 때문이다. 사실 이런 자책을 할 필요가 없다는 점도 명심해야 하겠다. 좀 더디게 성장할 수도 있지, 방향이 틀린 것은 아니기 때문이다. 그리고 지금껏 쌓아 온 지식과 실력이 그리 못 쓸 정도로 엉망이지도 않다. 단지 원하는 때에 졸업요건에 해당하는 논문 실적이 나오지 못한 점 하나만 아쉬운 것이다.


지금 내가 하는 연구와 이 연구를 완성하는 과정에서 얻는 기쁨, C/C++ 코딩 능력을 점차 확장시켜 가는 데서 얻는 성취감, 네트워크 시뮬레이터에서 점차 제 모습을 찾아가는 나만의 모듈들의 유연한 작동 과정을 보는 기쁨을 생각하며, 꾸준하게 즐겁게 연구를 이어 나가고 싶다.


이 글을 쓰기 직전에 나는 분명히 나의 연구의 큰 그림을 실현하기 위한 네트워크 시뮬레이터 코드에서 3일 넘게 나를 괴롭히던 버그를 고쳤다. 그러니까 이제 자고 일어나서 또 즐겁게 다음 모듈을 만들어 봐야겠다. :)



반응형
블로그 이미지

Bryan_

,