- stop.sh/stop-mlx.sh: kill -9 → SIGTERM 후 2초 대기, 미종료 시 SIGKILL fallback
- stop-mlx.sh/stop-ollama.sh: docker ps에 2>/dev/null 추가 (Docker 미실행 시 에러 억제)
- stop-ollama.sh: brew 명령어 존재 여부 체크 추가
- setup.sh: VRAM_MB 빈 값 방어 코드 추가 (set -e 크래시 방지)
- setup-ollama.sh: sleep 3 → 최대 15초 readiness 체크 루프로 교체
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 환경 준비 (nvidia-container-toolkit 설치 포함)
- 파라미터 레퍼런스 (max-model-len, gpu-memory-utilization 등)
- VRAM별 권장 설정 테이블
- 트러블슈팅
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- setup.sh: 시스템 자동 감지 (Apple Silicon/NVIDIA GPU/RAM) → 최적 방식 선택
- stop.sh: 실행 중인 서비스 자동 감지 후 종료
- setup-vllm.sh / stop-vllm.sh: NVIDIA GPU + Docker 기반 vLLM 서빙
- docker-compose.vllm.yml 자동 생성 (vLLM + Open WebUI)
- README 전면 개편
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- MLX: --use-paged-cache + --max-cache-blocks로 입력 8192 토큰 제한
- MLX: --kv-cache-quantization 기본 적용
- Ollama: Modelfile로 num_ctx(입력), num_predict(출력) 설정
- SETUP_MLX.md에 토큰 제한 설명 추가
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 서버를 백그라운드로 실행 (로그는 vllm-mlx.log에 저장)
- 모드 선택 제거, 멀티모달(--mllm) 고정
- 서버 준비 대기 로직 추가
- stop-mlx.sh에서 로그 파일 정리 추가
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
Ollama 방식과 vllm-mlx(MLX) 방식 두 가지 셋업 스크립트 및 가이드 포함.
transformers fast image processor 호환성 패치 자동 적용.
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>