Foundataion Models
- 다양한 대규모 데이터셋으로 하나의 모델을 사전학습 시켜 여러 task에 기본이 되는 모델
- 다양한 task에 일반적이고, 견고한 모델
- 대규모 파라미터, 대규모 데이터, 자기지도 사전 학습
- 사전 학습: 대규모 데이터 → 모델
- 파인 튜닝: 모델 → task
- 예시
- 언어: ELMo, BERT, GPT, T5
- 분류: CLIP, CoCa
- VLM: LLaVA, Flamingo, GPT-4V, Gemini, Molmo
Self-supervised Learning

학습 종류
- 지도 학습: 레이블이 지정된 데이터셋
- 대조 학습: 텍스트, 이미지를 함께 학습하여 관계 이해
- 이미지 비 대조 학습: 레이블 없이 이미지만 사용 (자기 지도 학습)
- 마스크 이미지 모델링: 이미지 일부 가리고 (자기 지도 학습)
자기 주도 학습
- Pretext-Task (no labels)
- 데이터 자체에 기반한 task
- 주석이 필요 없음 → label이 아웃풋으로 자동 생성
- 비지도학습으로 간주될 수 있지만, 분류/회귀와 같은 지도학습 목표
- Encoder, Decoder, Classifier, Regressor
- image completion, rotation prediction, jigsaw puzzle, colorization
- Downstream-Task (with labels)
- 대규모 데이터셋이 없으면 라벨링 되어야함
- Encoder, FC
Evaluate
- 목적: 레이블 없이 학습된 과제를 얼마나 잘 수행하는지 측정
- 품질: 학습된 표현의 품질 평가
- Linear Evaluation Protocol: 학습된 표현에 선형 분류기를 학습
- Clustering: 클러스터링 성능 측정
- t-SNE: 분류 가능성을 평가 하기위해 표현을 시각화
- 강건성 및 일반화, 효율성
- Transfer Learning and Downstream Task 성능

- 자기 지도 학습을 통해 feature-extractor 학습 (시각적 특징을 잘 추출하는 Encoder)
- MAE에서 인코더는 마스킹 되지 않은 소수의 패치만 처리하므로 인코더를 크게 설계한다. (x9 decoder)
- decoder는 전체 패치를 받아 원래 이미지 복원
- reconstruction loss: 입력 이미지와 복원 이미지 간 pixel-level MSE (마스킹 된 부분에서만 계산)
- 결론: 소수의 패치로 전체 이미지를 복원하도록 학습하여 강력한 표현 학습
- 학습된 feature-extractor를 통해 downstream 작업 평가 (레이블-지도학습)
Linear Probing vs Fine-tuning


- Linear Probing
- Pretrained encoder 고정
- 선형 레이어 추가 → 라벨 예측
- 목적: encoder의 표현 평가
- Fine-tuning
- 전체 학습
- 하나 이상의 레이어 추가 (비선형 가능)
- 목적: 모델의 잠재 성능을 최대환 활용 (downstream task)
- 의미: 작업에 최적화 하면 어느 정도 성능