1. Foundation Models and AI Engineering

Language Models
- 다음 단어 예측 (학습 데이터의 통계 정보에 의존)
  - Zipf’s law: 빈도 x 순위 = 일정 값
- DNN 사용: 임베딩 공간으로 비슷한 의미 단어 간 관계 학습
Large Language Models
- Autoregressvie LM
  - 순방향, decoder only (GPT)
  - “I Love (you).”
- Masked LM
  - 양방향, encdoer only (bert)
  - “I (love) you.”
  - T5, Reka: Enc-Dec / GLM: train(decoder only) test(both)
- Tokens
  - Byte-Level: 자주 등장하는 문자 쌍을 병합 → 효율적 단어 분할
  - Corpus에 의존적: 한국어/영어 등 학습 데이터에 따라 토큰화 방식이 다름
  - 토큰 수가 적을수록 속도, 비용 효율 ↑
- Self-supervision in LLM
  - 라벨이 없는 데이터를 자기 자신이 레이블을 생성하면서 학습하는 방식
  - I → love → street → food
Foundation Models
- 대규모 모델로 다양한 문제 해결 → AI 설계
AI Engineering
- 기존 모델 위에 목적 응용 어플리케이션을 구축하는 과정 = 기존 모델 + adapting + evaluation
  - vs ML Engineering: 새로운 ML 개발
  - vs MLOps: 배포 등 운영 단계에 집중
- 좋은 제품을 만들어 데이터를 얻고 모델을 개선
  - Application Development → Model Development → Infrastructure

2. Understanding Foundation Models

Training Data
- Common Crawl
  - 웹 크롤링 데이터셋 비영리 단체
  - C4, mC4: 노이즈 제거
  - 양보다 질이 중요 (외국어 자체는 큰 문제가 아님)
- 도메인 특화 모델, 데이터 개발이 활발함 → but! 범용 모델도 성능이 향상되는 중
Modeling
- Paradigm: Word Embedding → Encoder → Decoder
- RNN: 순차 데이터 처리를 위해 hidden state 정보를 다음 단계로 전달 하지만! gradient vanishing 문제
- Seq2Seq: context vector를 통해 모든 정보를 요약(압축)해야 함 하지만! 긴 문장 처리 한계
  
  RNN Seq2Seq
  
  같은 시퀀스 (분류, 예측 용도) 다른 시퀀스 (번역, 요약 용도)
- Attention: Decoder가 출력 생성 시 모든 정보를 보지 않고 각 단어의 attention score를 학습 (focus)
- Transformer: Self-Attention을 통해 모든 단어가 서로를 동시에 참고하여 contextualization을 학습 FFN: Attention으로 구한 문맥적 벡터를 비선형 변환하여 풍부한 표현으로 변환
- Learning Algorithm
  - Objective 함수 정의 → Optimizer 가중치 조정 → Batch size 효율,안전성 조절
Post-Training
- 목표: 다음 단어 예측 (기본 언어 이해 능력)
1. SFT
  - 목표: 명령을 잘 따르도록 Instruction tuning (지도학습)
  - Completion → Conversation
  - 명시적 예시 데이터를 주어 인간처럼 답하는 법을 배우게 함
2. Preference finetuning
  - 목표: 인간 선호 답변 학습 (강화학습)
  - why RL? delayed reward 문제: 보상이 즉시 주어지지 않고, 여러 단계의 출력 후에 평가 됨
Sampling
- 필요성: 같은 입력이라도 사람마다 다른 방식으로 대답
- 핵심 아이디어: $P(w_t|w_{1:t-1})$
  - Generate text = Generate n tokens: n개의 토큰을 순차적으로 예측 분류하는 일
  - Temperature: 창의성 조절
    - T=0: 가장 확률이 높은 하나의 토큰
    - T=1: 균형 자연스러운 대화
    - T = high: 여러 단어가 선택될 수 있음
    - T= $\infty$: 무작위로 단어가 선택
- Top-K sampling
  - 의미: 모델이 다음 단어를 예측할 때, 상위 K개 단어만 고려한다
  - 방식: k개의 확률을 다시 정규화하여 후보 안에서 선택
  - K가 클수록 다양성↑,품질↓
- Top-P sampling
  - 의미: 누적 p(0.9)를 넘을 때까지 단어를 남긴다.
  - 비교: 문맥이 정확할수록 더 적은 수의 단어만으로 누적확률p(0.9) 달성
  - 문맥 의존적, 더 유연함

RNN	Seq2Seq
같은 시퀀스 (분류, 예측 용도)	다른 시퀀스 (번역, 요약 용도)

3. Evaluation

Challenges
- 따라서 다양한 평가 벤치마크 논문이 활발하게 등장한 이유?
1. 지능이 높은 AI일수록 평가가 어려움: 부분 점수가 필요한 상황 (단순 정확도 X)
2. 출력 다양성 문제: 서술형의 경우 논리성, 창의성 등 주관적 평가 요소
3. Black box 문제: 왜 특정 답을 냈는지 설명하기 어려움
Statistical metrics
- Cross Entropy
  - 정의: 모델이 정답 토큰에 얼마나 높은 확률을 부여했는가
    
    ⇒ 확률이 클수록 CE값이 작아짐 → 모델 성능 ↑
  - 해석: KL 거리와 동일한 형태
    
    ⇒ 모델의 확률 분포가 실제 데이터 분포에 얼마나 가까운지 측정
- Bits-per-Character (BPC) & Bits-per-Byte (BPB)
- Perplexity(PPL): 혼란도
Metrics based on Keyword Matching