인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력을 컴퓨터 프로그램으로 구현한 기술입니다. 1956년 다트머스 회의에서 존 매카시가 처음 명명한 이후, AI는 규칙 기반 시스템에서 현재의 딥러닝까지 급격한 발전을 이루었습니다. 오늘날 AI는 자연어 처리(NLP), 컴퓨터 비전, 음성 인식, 추천 시스템 등 다양한 분야에서 활용되며, ChatGPT, Claude, Gemini 같은 대화형 AI부터 자율주행, 의료 진단까지 우리 삶 전반에 영향을 미치고 있습니다.
AI의 역사와 발전
AI 연구는 1950년 앨런 튜링의 "기계가 생각할 수 있는가?"라는 질문에서 시작되었습니다. 튜링 테스트를 기준으로 기계 지능을 평가하기 시작했고, 이후 전문가 시스템, 퍼지 로직, 신경망 연구가 진행되었습니다. 2012년 AlexNet의 이미지넷 대회 우승을 기점으로 딥러닝 혁명이 시작되었으며, 2017년 트랜스포머 아키텍처 등장 이후 GPT, BERT, LLaMA 등 대규모 언어 모델이 탄생했습니다.
📊 2. AI 유형과 분류
약인공지능(ANI) vs 강인공지능(AGI)
약인공지능(Artificial Narrow Intelligence)은 특정 작업에 특화된 AI로, 현재 상용화된 대부분의 AI가 이에 해당합니다. 체스 AI, 번역 AI, 추천 알고리즘 등이 대표적입니다. 강인공지능(AGI)은 인간 수준의 범용 지능을 갖춘 AI로, OpenAI, DeepMind, Anthropic 등 주요 기업들이 연구 중입니다. 초인공지능(ASI)은 인간 지능을 초월하는 가상의 AI 단계입니다.
AI 적용 분야별 분류
자연어 처리(NLP) AI는 텍스트 이해, 번역, 요약, 감정 분석을 수행합니다. 컴퓨터 비전(CV) AI는 이미지 인식, 객체 탐지, 얼굴 인식에 사용됩니다. 음성 AI는 STT, TTS, 음성 합성을 담당합니다. 추천 시스템 AI는 Netflix, YouTube, Amazon의 개인화 추천에 활용됩니다.
⚙️ 3. 머신러닝(Machine Learning)
지도학습, 비지도학습, 강화학습
머신러닝은 데이터에서 패턴을 학습하는 AI의 핵심 기술입니다. 지도학습(Supervised Learning)은 정답이 있는 데이터로 학습하며 분류와 회귀 문제를 해결합니다. 비지도학습은 레이블 없는 데이터에서 군집화, 차원 축소를 수행합니다. 강화학습은 보상과 벌칙을 통해 최적 행동을 학습하며, AlphaGo, 게임 AI, 로봇 제어에 활용됩니다.
주요 ML 알고리즘
선형 회귀, 로지스틱 회귀는 기초적인 예측 모델입니다. 의사결정 트리, 랜덤 포레스트, XGBoost, LightGBM은 앙상블 기법으로 높은 성능을 제공합니다. SVM은 분류 문제에 강력하며, K-평균, DBSCAN은 군집화에 사용됩니다. scikit-learn, TensorFlow, PyTorch가 대표적인 ML 프레임워크입니다.
🧠 4. 딥러닝(Deep Learning)
신경망 아키텍처
딥러닝은 다층 신경망을 사용하는 머신러닝의 하위 분야입니다. CNN(Convolutional Neural Network)은 이미지 처리에 특화되어 ResNet, VGG, EfficientNet 등으로 발전했습니다. RNN과 LSTM은 시퀀스 데이터 처리에 사용됩니다. 2017년 등장한 트랜스포머는 어텐션 메커니즘을 통해 NLP 분야를 혁신했으며, BERT, GPT, T5의 기반이 되었습니다.
GPU와 딥러닝 인프라
딥러닝 학습에는 대규모 병렬 연산이 필요하여 NVIDIA GPU(A100, H100)가 핵심 하드웨어입니다. 클라우드에서는 AWS SageMaker, Google Cloud Vertex AI, Azure ML이 MLOps 플랫폼을 제공합니다. TPU는 Google이 개발한 AI 전용 칩입니다. Hugging Face는 사전학습 모델 허브로 자리잡았습니다.
✨ 5. 생성형 AI(Generative AI)
텍스트 생성 AI
ChatGPT(OpenAI), Claude(Anthropic), Gemini(Google), LLaMA(Meta)는 대표적인 텍스트 생성 AI입니다. 이들은 수천억 개 파라미터를 가진 대규모 언어 모델로, 대화, 글쓰기, 코딩, 번역, 요약 등 다양한 작업을 수행합니다. GPT-4, Claude 3, Gemini Ultra는 멀티모달 기능을 지원하여 이미지 이해도 가능합니다.
이미지/영상 생성 AI
Midjourney, DALL-E 3, Stable Diffusion, Adobe Firefly는 텍스트 프롬프트로 이미지를 생성합니다. 확산 모델 또는 GAN 기반입니다. 영상 생성 AI로는 Runway Gen-2, Pika Labs, Sora가 있으며, 음악 생성 AI로는 Suno, Udio, AIVA가 작곡을 자동화합니다.
📚 6. LLM 대형언어모델
주요 LLM 비교
GPT-4(OpenAI)는 가장 널리 사용되는 상용 LLM입니다. Claude 3(Anthropic)는 안전성과 긴 컨텍스트(200K 토큰)가 강점입니다. Gemini(Google)는 검색, 유튜브와 통합됩니다. LLaMA 3(Meta), Mistral, Qwen은 오픈소스 LLM입니다. 한국어 특화 모델로는 네이버 HyperCLOVA X, KT MidM이 있습니다.
프롬프트 엔지니어링
프롬프트 엔지니어링은 LLM에서 원하는 결과를 얻기 위한 입력 설계 기법입니다. Zero-shot, Few-shot, Chain-of-Thought, Tree-of-Thought 기법이 있습니다. RAG(Retrieval-Augmented Generation)는 외부 지식베이스를 검색해 답변 정확도를 높입니다. LangChain, LlamaIndex는 LLM 애플리케이션 개발 프레임워크입니다.
🛠️ 7. 주요 AI 도구
생산성 AI 도구
Microsoft Copilot은 Office에 AI를 통합합니다. Notion AI는 문서 작성을 지원합니다. GitHub Copilot, Cursor, Tabnine은 코드 자동 완성을 제공합니다. Canva AI, Figma AI가 디자인에, Descript, Kapwing이 영상 편집에 AI 기능을 제공합니다.
AI API와 개발 플랫폼
OpenAI API는 GPT-4, DALL-E, Whisper를 제공합니다. Anthropic API는 Claude를, Google AI Studio는 Gemini API를 제공합니다. AWS Bedrock은 다양한 LLM을 통합 제공합니다. Hugging Face는 오픈소스 모델 허브이자 Inference API를 제공합니다.
🔮 8. AI 미래 전망
2025년 AI 트렌드
AI 에이전트는 자율적으로 목표를 수행하는 시스템으로 AutoGPT, CrewAI가 대표적입니다. 멀티모달 AI는 텍스트, 이미지, 음성, 영상을 통합 처리합니다. 소형 언어 모델(SLM)인 Phi-3, Gemma는 온디바이스 AI를 가능하게 합니다. AI PC, AI 스마트폰이 등장하며 NPU 탑재가 표준화됩니다.
AI 윤리와 규제
EU AI Act는 세계 최초의 포괄적 AI 규제법입니다. AI 편향, 딥페이크, 저작권 문제가 사회적 이슈입니다. Responsible AI, AI Safety 연구가 중요해지고 있으며, AGI 실현 시 인류에 미칠 영향에 대한 논의가 활발합니다.