AI·머신러닝·딥러닝 (규칙기반, 지도학습, 블랙박스)

인공지능(AI), 머신러닝(ML), 딥러닝(DL)은 포함 관계에 있습니다. AI 안에 ML이 있고, ML 안에 DL이 있죠. 저는 처음 이 개념을 접했을 때 "스스로 학습한다"는 표현을 그대로 받아들여서, 사람이 하는 일이 거의 없다고 착각했습니다. 그런데 실제로 작은 프로젝트를 진행해보니, 모델보다 데이터 정의와 라벨 기준이 훨씬 시간을 잡아먹었습니다.

규칙기반과 머신러닝의 학습 방식

규칙 기반 인공지능은 사람이 직접 규칙을 만들어 넣는 방식입니다. 예를 들어 남자와 여자를 구분하는 프로그램을 만든다면, "턱수염이 있으면 남자", "머리가 길면 여자", "눈화장이 있으면 여자" 같은 규칙을 사람이 일일이 정의해야 합니다. 이렇게 1번부터 100번까지 데이터를 보면서 규칙을 직접 만들고, 그 규칙을 기반으로 101번째 데이터부터는 자동으로 판단하도록 하는 것이죠. 여기서 자동화(Automation)란 반복적인 작업을 사람 대신 기계가 수행하도록 만드는 것을 의미합니다.

반면 머신러닝은 인간의 개입 없이 기계가 스스로 학습하는 기술입니다. 사진을 보여주면서 "이게 남자"라는 것만 알려주고, "이게 여자"라는 것만 알려주면, 모델이 알아서 특징을 찾아냅니다. 사람이 "턱수염을 보라"거나 "머리 길이를 보라"고 말해주지 않아도, 모델이 수백 장의 사진을 보면서 스스로 패턴을 학습하는 거죠. 저는 사용자 행동 로그로 이탈 예측 모델을 만들어본 적이 있는데, "이탈"을 7일 미접속으로 볼지, 결제 여부로 볼지 기준을 정하는 순간부터 결과가 완전히 달라졌습니다. 같은 알고리즘이라도 전처리와 분할 기준 하나로 성능이 들쭉날쭉했고, 그 과정에서 '학습'은 모델이 하지만 문제 자체를 설계하는 건 결국 사람이라는 걸 체감했습니다.

머신러닝에서는 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)이 대표적입니다. 여기서 지도학습이란 입력 데이터와 함께 정답(레이블)을 모델에게 알려주면서 학습시키는 방식을 말합니다. 예를 들어 개와 고양이를 분류하는 모델을 만든다면, 개 사진에는 "개"라는 레이블을, 고양이 사진에는 "고양이"라는 레이블을 붙여서 함께 전달합니다. 뉴스 요약도 마찬가지로, 본문과 함께 "이렇게 요약해야 한다"는 예시를 함께 주는 방식이죠. 장점은 정답을 같이 주기 때문에 학습이 잘 되지만, 단점은 레이블 데이터를 하나하나 만들어야 해서 비용과 시간이 많이 든다는 점입니다(출처: 통계청).

비지도학습은 정답 없이 입력만 사용하는 방식입니다. 대표적으로 MLM(Masked Language Model) 태스크가 있는데, MLM이란 문장에서 일부 단어를 가리고 그 단어가 무엇인지 맞추도록 학습시키는 방법입니다. 쉽게 말해 수능 빈칸 추론 문제처럼, 글에서 빈칸을 뚫어놓고 모델이 그 빈칸을 추론하도록 만드는 거죠. 원래 데이터 안에 정답이 있기 때문에 사람이 일일이 레이블을 만들 필요가 없어서 비용이 절감됩니다. K-means 클러스터링도 비지도학습의 한 예로, 데이터들을 좌표에 표시했을 때 비슷한 거리에 있는 것들끼리 묶어주는 방식입니다.

딥러닝과 데이터 종류별 활용

딥러닝은 머신러닝 중에서도 뉴럴 넷(Neural Network)을 깊게 쌓은 모델을 사용하는 방법입니다. 여기서 뉴럴 넷이란 인간의 뇌에 있는 뉴런을 모방해서 만든 네트워크 구조를 말합니다. 쉽게 말해 여러 층(Layer)을 겹겹이 쌓아서 복잡한 패턴을 학습할 수 있도록 만든 것이죠. DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 같은 모델들이 대표적이고, 여러분이 잘 아는 ChatGPT의 GPT 모델도 딥러닝 기술입니다.

딥러닝의 가장 큰 특징은 특성을 지정해 줄 필요가 없다는 점입니다. 머신러닝에서는 이미지를 넣을 때 눈·코·입 같은 특성을 따로 나눠서 넣어주면 모델이 더 잘 학습하곤 했지만, 딥러닝은 이미지만 넣어주면 알아서 결과까지 추론해냅니다. 그래서 딥러닝의 다른 이름이 블랙박스 모형(Black Box Model)인데, 블랙박스 모형이란 모델이 내부에서 어떻게 판단했는지 사람이 명확히 알기 어려운 구조를 뜻합니다.

블랙박스 모형

쉽게 말해 모델이 왜 잘하는지 정확히 설명하기 어렵다는 거죠. 솔직히 이건 예상 밖이었는데, 딥러닝을 써보니 성능은 좋은데 왜 좋은지 설명하라면 막막한 경우가 많았습니다.

정형 데이터와 비정형 데이터에 따라 활용하는 기술도 달라집니다. 정형 데이터(Structured Data)는 테이블 구조로 정리된 데이터를 말하는데, 고객 이름, 주소, 전화번호, 구매내역 같은 엑셀 표 형태의 데이터입니다. 이런 정형 데이터는 컴퓨터가 이해하기 쉬워서 바로 학습에 사용할 수 있고, 머신러닝 모델이 충분히 잘 처리합니다. 실제로 광고 추천이나 상품 추천 시스템에서는 아직도 머신러닝을 많이 사용한다고 합니다(출처: 한국지능정보사회진흥원).

비정형 데이터(Unstructured Data)는 이미지, 음성, 텍스트, 동영상 같은 파일 형태의 데이터를 말합니다. 이런 비정형 데이터는 컴퓨터가 바로 이해할 수 없어서 임베딩(Embedding)이라는 작업을 거쳐야 하는데, 임베딩이란 데이터를 컴퓨터가 이해할 수 있는 숫자 형태로 변환하는 과정입니다. 비정형 데이터를 다룰 때는 딥러닝이 훨씬 더 잘합니다. ChatGPT나 DALL-E 같은 이미지·텍스트 생성 모델은 거의 100% 딥러닝을 사용하죠. 제 경험상 이건 좀 다른데, 정형 데이터는 머신러닝으로도 충분히 좋은 성능을 낼 수 있었지만, 이미지나 텍스트는 딥러닝을 써야 제대로 된 결과가 나왔습니다.

정리하면 다음과 같습니다.

규칙 기반: 사람이 직접 규칙 정의
머신러닝: 모델이 스스로 패턴 학습, 정형 데이터에 강함
딥러닝: 뉴럴 넷 깊게 쌓아 비정형 데이터에 강함

인공지능, 머신러닝, 딥러닝은 사전적으로는 명확히 구분되지만, 실제 현업에서는 용어가 혼용되는 경우가 많습니다. 머신러닝 엔지니어와 딥러닝 엔지니어가 하는 일이 실질적으로 같은 경우도 많고, 광고에서 "딥러닝 기반 추천 시스템"이라고 해도 실제로는 규칙 기반일 수도 있죠. 그래서 개념을 정확히 이해하되, 실무에서는 데이터 종류와 문제에 맞춰 유연하게 접근하는 게 중요하다고 생각합니다. 앞으로 여러분이 AI 프로젝트를 시작한다면, 먼저 데이터가 정형인지 비정형인지 파악하고, 그에 맞는 기술을 선택하는 것부터 시작해보시길 권합니다.

참고: https://youtu.be/WeHFmpDN_ks?si=-yIKNN0sTyitOXQ3

슈퍼노각

AI·머신러닝·딥러닝 (규칙기반, 지도학습, 블랙박스)

규칙기반과 머신러닝의 학습 방식

딥러닝과 데이터 종류별 활용

블랙박스 모형

티스토리툴바

티스토리툴바