Paradigm: Word Embedding → Encoder → Decoder
RNN: 순차 데이터 처리를 위해 hidden state 정보를 다음 단계로 전달 하지만! gradient vanishing 문제
Seq2Seq: context vector를 통해 모든 정보를 요약(압축)해야 함 하지만! 긴 문장 처리 한계
| RNN | Seq2Seq |
|---|---|
| 같은 시퀀스 (분류, 예측 용도) | 다른 시퀀스 (번역, 요약 용도) |
Attention: Decoder가 출력 생성 시 모든 정보를 보지 않고 각 단어의 attention score를 학습 (focus)
Transformer: Self-Attention을 통해 모든 단어가 서로를 동시에 참고하여 contextualization을 학습 FFN: Attention으로 구한 문맥적 벡터를 비선형 변환하여 풍부한 표현으로 변환
Learning Algorithm
Cross Entropy
정의: 모델이 정답 토큰에 얼마나 높은 확률을 부여했는가
⇒ 확률이 클수록 CE값이 작아짐 → 모델 성능 ↑
해석: KL 거리와 동일한 형태
⇒ 모델의 확률 분포가 실제 데이터 분포에 얼마나 가까운지 측정
Bits-per-Character (BPC) & Bits-per-Byte (BPB)
Perplexity(PPL): 혼란도