A.I./가볍게

머신러닝과 인공지능(artificial intelligence)에 대한 단상

콘파냐 2019. 3. 25. 18:05

관심이 없는 사람들 조차 4차산업과 머신러닝, 인공지능, 알파고라는 단어는 쉽게 접하게 되는 요즘이다.

스마트폰에 음성명령을 인식해서 검색이나, 앱을 실행주는 기능을 사용하려면 가끔 혼잣말 하는 듯 하여 좀 어색하기는 하지만 꽤 편리하다.

자율주행 자동차나 졸음운전으로 인한 사고를 미연에 알아차려 제동을 거는 등의 활용은 매우 유익하다고 생각한다.

이젠 기업들은 빅데이터를 분석하여 특정 고객둘의 니즈에 대한 인사이트를 얻어내는 일을 기계의 힘에 맏기는 시대가 도래하기 시작했다.

사실 이런 작업이나 연구가 한순간에 이뤄진 것은 아니다. 오래전부터 계속 연구되고 발전되어 왔지만 이렇게 급격하게 진전되는 듯 보이는 이유는 빅데이터와 하드웨어의 발전의 힘이다.

빅데이터와 하드웨어 이 두가지를 따로 때어놓을 수는 없다. 네트워크의 발전으로 데이터가 쌓여 왔지만 이를 저장하고 처리하기 위한 하드웨어는 최근들어 거의 정점을 향해 달려가는 듯 보인다. 앞으로 양자컴퓨터가 나온다면 정말 볼만할 듯 싶다.

그런데 지금 화두에 있는 인공지능은 아직까지는 인간의 생각을 모방하는 기술이 아니고 대체로 통계적인 분석에서 기원을 한다. 통계를 내기 위해서는 일정량의 데이터가 필요한데, 빅데이터 시대에선 발전된 컴퓨터(머신) 인프라를 사용하여 빅!데이터를 가지고 훈련을시키는 것이다. 일명 머신러닝! 

이런 의미에서 머신러닝은 일종의 훈련과정을 빗댄 말인 듯 싶다. (머신러닝)훈련을 시키는 방법에는 통계에 기원을 둔 방식(알고리즘)과 그렇지 않은 신경망과 같은 기술들이 있다. 통계적인 방식이든 아니든 분석해야할 데이터가 많으면 많을 수록 비례한 컴퓨팅 파워가 필요하다.

예를들어 인간의 얼굴을 인식하는 것 역시 수많은 사람얼굴 데이터를 훈련시켜 얻은 결과다. 데이터는 많으면 많을 수록 좋다. 물론 퀄리티 좋은? 데이터여야 한다. 훈련의 방식이 동일하다면 데이터의 양에 비례해서 예측률은 대체적으로 올라간다. 대신 많으면 많을수록 훈련시키는데 많은 시간이 필요하게 된다. 그래서 요즘은 CPU 뿐아니라 GPU까지 동원한다.

이렇게 훈련을 시키면 새로운 데이터에 대해서 사람의 얼굴인지 아닌지에 대해서 판단할 수 있는 예측기를 만들 수 있다.

훈련 과정

대부분의 인공지능 예측은 이런식으로 진행된다. (데이터수집 - 분석 - 훈련- 새로운 데이터에 대해 예측)

그리고 컴퓨터에게 훈련을 시키는 부분은 많은 부분이 자동화되어 있어서 매우 간단하다. 연구를 하거나 새로운 알고리즘을 개발하는 것이 아니라면 훌륭한 오픈소스들을 이용한다. 텐서플로우(tensorflow), 케라스(keras), 사이킷럿(scikitlearn) 등 파이썬으로 제공된 무료 오픈소스와 정제된 훈련데이터만 있다면 코드를 짜는 것은 어렵지 않다.(프로그래밍의 기초는 알아야함)

문제는 데이터다. 데이터는 어떤식으로든 정제되어야 한다. 

개인적인 생각은 데이터분석과 머신러닝 과정을 따로 띠어놓고 본다면 9:1이라고 본다. 그만큼 데이터는 중요하다. (물론 좋은 머신러닝 라이브러리들이 공개되어 있기에 가능한 일이다.)

세상에 태어나 아무런 지식을 가지지 않은 어린아이들을 상상해보자. 엄마? 또는 아빠의 존재를 알지 못하지만 하루, 이틀, 1년.. 이렇게 지속적으로 같이 지내면서 엄마와 아빠를 인식하게 된다. 그리고 아기가  "엄마", "아빠"라는 단어를 말하기 까지 수많은 반복 듣기를 했을 것이다. 쉽게말해서 아이가 접하게되는 사람의 모습, 언어 등은 데이터다. 데이터가 쌓이면 쌓일수록 아이는 데이터에 대해서 확신을 갖게되고 알게된다.

또 다른 예로 새롭게 출시하는 스마트폰의 모습은 알 수가 없지만  대체로 보자마자 스마트폰임을 알 수 있을 것이다. 새로운 형태에 대해서 과거의 데이터에 근거해서 예측하는 것이다. 인간의 두뇌는 이런 측면에서 매우 뛰어나기 때문에 과거에 접했던 경험이 적더라도 아주 쉽게 예측이 가능하다.

머신이 이런 인간의 예측을 모방하기 위해서는 빅!데이터가 필요하다. 그리고 잘 정제되어 있어야한다.!

그렇지 않으면 데이터의 노이즈로 인해서 예측률이 오히려 떨어질 수 있다.

반응형