728x90
1. 들어가며
자연어처리(NLP)를 하다 보면 입력과 출력의 길이가 서로 다른 문제를 종종 만나게 됩니다. 예를 들어, 영어 문장을 한국어로 번역할 때 단어 개수가 달라질 수 있고, 긴 문서를 짧게 요약할 때도 마찬가지입니다.
이런 문제를 해결하기 위해 등장한 것이 Sequence-to-Sequence(Seq2Seq) 모델입니다.
오늘은 Seq2Seq 모델의 기본 개념과, 전통적인 RNN 기반 Seq2Seq와 최근 주류가 된 Transformer 기반 Seq2Seq를 비교해 보겠습니다.
2. Seq2Seq 기본 개념
Seq2Seq 모델은 말 그대로 하나의 시퀀스를 다른 시퀀스로 변환하는 모델입니다.
대표적인 활용 분야는 다음과 같습니다.
- 기계 번역 (Machine Translation)
- 문장 요약 (Summarization)
- 질의응답 (Question Answering)
- 음성 → 텍스트 변환 (Speech-to-Text)
- 이미지 캡션 생성 (Image Captioning, CNN + Seq2Seq)
핵심 아이디어
- Encoder: 입력 시퀀스를 받아 의미를 함축한 벡터(컨텍스트 벡터)로 변환
- Context Vector: 입력 시퀀스의 정보를 요약한 고정 길이 벡터
- Decoder: 이 벡터를 기반으로 순차적으로 출력 시퀀스를 생성
3. RNN 기반 Seq2Seq
초창기 Seq2Seq는 RNN 계열(LSTM, GRU 등)을 기반으로 만들어졌습니다.
입력 시퀀스 → [Encoder RNN/LSTM/GRU] → Context Vector → [Decoder RNN/LSTM/GRU] → 출력 시퀀스
특징
- 장점: 구조가 직관적이며 비교적 간단
- 단점: 긴 시퀀스를 처리할 때 고정 길이 컨텍스트 벡터에 모든 정보를 담기 어려워 성능 저하 발생
- 이를 완화하기 위해 Bidirectional Encoder와 Attention 메커니즘이 도입됨
728x90
4. Transformer 기반 Seq2Seq
2017년 Google의 Attention is All You Need 논문에서 제안된 Transformer는 RNN 없이 Self-Attention만으로 Seq2Seq를 구현합니다.
특징
- 장점:
- 모든 입력 토큰을 동시에 처리(병렬 처리 가능 → 학습 속도 빠름)
- 긴 시퀀스에서도 정보 손실이 적음
- Attention을 통해 매 시점마다 입력의 중요한 부분을 선택적으로 참고
- 구조:
- Encoder: 입력 시퀀스를 여러 층의 Self-Attention과 Feed Forward Network로 처리
- Decoder: 이전에 생성한 토큰과 Encoder의 출력을 함께 참조하여 다음 토큰 예측
5. 구조 비교
아래 그림은 RNN 기반 Seq2Seq와 Transformer 기반 Seq2Seq의 구조 차이를 시각적으로 보여줍니다.
비교 요약
구분RNN 기반 Seq2SeqTransformer 기반 Seq2Seq
| 기반 구조 | RNN/LSTM/GRU | Self-Attention |
| 처리 방식 | 순차 처리 | 병렬 처리 |
| 긴 문장 처리 | 어려움 (정보 손실 가능) | 상대적으로 강함 |
| 학습 속도 | 느림 | 빠름 |
| 대표 개선 기술 | Bidirectional, Attention | Multi-Head Attention |
6. 마무리
Seq2Seq는 NLP의 많은 문제를 해결하는 기본 구조입니다.
RNN 기반은 이해하기 쉽고 구현이 간단하지만, 긴 문장이나 복잡한 문맥을 처리하는 데 한계가 있었습니다. Transformer 기반은 이러한 한계를 극복하고, 현재 대부분의 최신 NLP 모델(BERT, GPT, T5 등)의 기반이 되고 있습니다.
728x90
'푸닥거리' 카테고리의 다른 글
| Spring AI 임베딩과 RAG 구현 (0) | 2026.01.11 |
|---|---|
| Label Shift vs Covariate Shift — 실무 개발자를 위한 10분 가이드 (0) | 2025.08.23 |
| Inductive vs Transductive Learning – 무엇이 다를까? (0) | 2025.07.26 |
| 🔍 RAG(Retrieval-Augmented Generation)란? 검색과 생성의 만남 (0) | 2025.07.23 |
| YOLO와 Probability Calibration: 객체 탐지 모델의 신뢰도 높이기 (0) | 2025.07.19 |
댓글