Large Language Models Basics

주어진 이전 단어들을 기반으로 다음 단어를 예측
- 단순 분류가 아니라 새로운 텍스트를 생성하는 점에서 생성형 AI
Transformers
- encoder only
  - bert
  - 문장 이해
  - MLM
- decoder only
  - GPT
  - 문장 생성
  - 다음 단어 예측

Word Embeddings

동기: 언어를 수치화 하여 신경망이 학습할 수 있도록 하기 위해
why deep learning? 비선형 변환 가능
one-hot-vector
- 차원이 너무 크고, 의미적 유사성 반영 불가 (apple, banna)
Word2Vec
- 분포 기반 임베딩 모델
- Skip-gram
  - 중심 단어를 통해 주변 단어 예측
  - 주변 단어 예측 확률의 로그 합 최대화
- 단어 간 의미적 거리 계산 가능

Tokenizer

bpe

Neural Language Models

RNN
- 시계열 처리
- 문제: vanishing gradient: 긴 문맥 손실
- 단일 hidden state 사용