LLM

토큰 수가 왜 중요할까? LLM의 컨텍스트 윈도우 개념 정리

Joonfluence 2025. 5. 12. 09:20

기술 개요 요약

컨텍스트 윈도우(Context Window)는 대규모 언어 모델(LLM, Large Language Model)이 한 번에 처리할 수 있는 텍스트의 범위를 의미하며, 이 범위는 주로 토큰(Token) 단위로 계산됩니다. 모델은 입력된 토큰들을 기반으로 다음 토큰을 예측하는 방식으로 작동하므로, 컨텍스트 윈도우가 크다는 것은 더 많은 문맥을 고려한 응답이 가능함을 의미합니다. 이 한계는 모델 설계 시 정의되며, 학습·추론 성능 및 리소스 사용량에 큰 영향을 미칩니다.

핵심 개념 및 용어 정리

용어 설명
토큰(Token) 문장을 모델이 이해할 수 있도록 쪼갠 단위. 단어나 단어 조각, 구두점 등이 포함됨
컨텍스트 윈도우(Context Window) 모델이 한 번에 처리할 수 있는 최대 토큰 수 (입력 + 출력 포함)
입력 토큰(Input Tokens) 프롬프트나 문서 등 모델에 주어진 토큰
출력 토큰(Output Tokens) 모델이 생성하는 응답 텍스트의 토큰
컨텍스트 압축(Context Compression) 긴 문맥을 줄이거나 요약해 컨텍스트 윈도우 안에 맞추는 기법
RAG (Retrieval-Augmented Generation) 외부 문서를 검색해 컨텍스트에 포함시켜 응답 성능을 높이는 방식

주요 LLM 별 컨텍스트 윈도우 크기 비교 (2025년 기준)

모델명 최대 컨텍스트 윈도우**(토큰)** 주요 특징 비고
Gemini 1.5 Pro 1,000,000~2,000,000 멀티모달 지원, 초장문·장기 맥락 처리, 1시간 영상·22시간 오디오 검색
Claude 3.5 Sonnet 200,000 대화·문서 맥락 유지, 50만 토큰(Enterprise 요금제)도 제공
Claude 3.7 Sonnet/Opus 200,000 128K 토큰 출력 가능(베타), 장문 처리 최적화
GPT-4o / GPT-4-turbo 128,000 OpenAI 최신 모델, 비전·텍스트·코드 등 멀티태스크
Llama 3.1 405B 128,000 GQA 기술, 효율성·다국어 지원, 장문 처리
Mistral Large 2 128,000 오픈소스, 123B 파라미터, 다국어 지원
Llama 2 4,096~65,536 Meta, 모델에 따라 다름(Llama 2: 4K, Llama 2 70B: 32K/65K)
GPT-3.5 Turbo 16,000 대중적 활용, 일반 대화 및 텍스트 생성

예시로 보는 컨텍스트 윈도우 단위

  • 500토큰 → 약 350~400단어 (A4 1/2 페이지 분량)
  • 8,000토큰 → 약 6,000단어 (논문 한 편 수준)
  • 128,000토큰 → 약 100,000단어 (책 한 권 수준)

주의 : 영어 기준. 한국어는 평균적으로 더 적은 단어로도 많은 토큰을 소비할 수 있음.

사용 시 주의점 및 Best Practice

  • 긴 문서 처리 시: 반드시 요약, 문단 분리, 순차적 질의 등의 전략 필요
  • 토큰 초과 오류: 모델 응답이 잘리거나 에러 발생 가능 → tokenizer 도구로 미리 계산
  • 요약/검색 기반 기법 활용: 컨텍스트 윈도우를 넘는 경우, 요약 + RAG 방식이 효과적
  • 모델 간 차이 주의: 동일 모델명이라도 API 제공사에 따라 윈도우 크기 다름

컨텍스트 윈도우가 큰 것이 좋은 성능을 보장할까?

더 큰 컨텍스트 윈도우는 모델이 더 많은 정보를 한 번에 고려할 수 있게 하여, 긴 문맥을 이해하거나 일관성 있는 답변을 생성하는 데 유리합니다. 실제로 최근 LLM들은 컨텍스트 윈도우 크기를 점점 키우고 있으며, 다양한 논문에서 윈도우가 길어질수록 성능이 향상된다는 결과도 보고되고 있습니다.

그렇지만 RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELS의 연구에 따르면, 검색 청크 수를 늘리는 것이 항상 성능 향상으로 이어지는 것은 아니라고 합니다. 연구 결과의 내용을 요약하면 아래와 같습니다.

  • 검색 기능은 짧은 컨텍스트(4K)와 긴 컨텍스트(16K/32K) LLM 모두의 성능을 크게 향상시킵니다.
  • 간단한 검색 기능이 추가된 4K 컨텍스트 LLM은 16K 긴 컨텍스트 LLM과 유사한 성능을 보이면서도 추론 시 더 효율적입니다.
  • 컨텍스트 윈도우 확장과 검색 기능 추가를 통해 최적화된 Llama2-70B-32k-ret 모델은 GPT-3.5-turbo-16k와 Davinci003을 능가하는 성능을 보였습니다.

최적의 성능을 얻기 위해서는 모델 아키텍처, 컨텍스트 윈도우 크기, 검색 청크 수 등 다양한 요소를 종합적으로 고려되어야 하며, 노이즈가 섞인 데이터가 함께 고려될 경우, "lost in the middle" 현상으로 인해 오히려 성능이 저하될 수 있습니다.

결국, 검색 기능이 성능 향상에 주요함을 알 수 있으며, 향후 RAG 시스템 구축 방법에 대해서도 자세히 알아보도록 하겠습니다.

RAG 시스템 구축의 주요 구성요소

RAG 시스템 구축의 주요 구성요소는 다음과 같습니다.

  • 벡터 데이터베이스: 임베딩된 문서나 정보를 저장하고, 빠르게 유사도 검색을 수행합니다.
  • 임베딩 모델: 텍스트를 수치 벡터로 변환해 의미적 유사성을 계산합니다.
  • LLM: 검색된 정보와 입력 쿼리를 바탕으로 답변을 생성합니다.

참고자료 / 공식 문서 출처

반응형