- MLX: --use-paged-cache + --max-cache-blocks로 입력 8192 토큰 제한
- MLX: --kv-cache-quantization 기본 적용
- Ollama: Modelfile로 num_ctx(입력), num_predict(출력) 설정
- SETUP_MLX.md에 토큰 제한 설명 추가
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
Ollama 방식과 vllm-mlx(MLX) 방식 두 가지 셋업 스크립트 및 가이드 포함.
transformers fast image processor 호환성 패치 자동 적용.
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>