Large Language Models Basics
- 주어진 이전 단어들을 기반으로 다음 단어를 예측
- 단순 분류가 아니라 새로운 텍스트를 생성하는 점에서 생성형 AI
- Transformers
- encoder only
- decoder only
Word Embeddings
- 동기: 언어를 수치화 하여 신경망이 학습할 수 있도록 하기 위해
- why deep learning? 비선형 변환 가능
- one-hot-vector
- 차원이 너무 크고, 의미적 유사성 반영 불가 (apple, banna)
- Word2Vec
- 분포 기반 임베딩 모델
- Skip-gram
- 중심 단어를 통해 주변 단어 예측
- 주변 단어 예측 확률의 로그 합 최대화
- 단어 간 의미적 거리 계산 가능
Tokenizer
Neural Language Models
- RNN
- 시계열 처리
- 문제: vanishing gradient: 긴 문맥 손실
- 단일 hidden state 사용