Commit Graph

4 Commits

Author SHA1 Message Date
MyeonghoeLee
bcd17b2951 입출력 토큰 제한 적용 (Ollama + MLX 모두)
- MLX: --use-paged-cache + --max-cache-blocks로 입력 8192 토큰 제한
- MLX: --kv-cache-quantization 기본 적용
- Ollama: Modelfile로 num_ctx(입력), num_predict(출력) 설정
- SETUP_MLX.md에 토큰 제한 설명 추가

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-25 22:32:57 +09:00
MyeonghoeLee
ce0233985f README 추가
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-25 22:06:46 +09:00
MyeonghoeLee
b9e448af0d vllm-mlx 서버 백그라운드 실행 및 멀티모달 고정
- 서버를 백그라운드로 실행 (로그는 vllm-mlx.log에 저장)
- 모드 선택 제거, 멀티모달(--mllm) 고정
- 서버 준비 대기 로직 추가
- stop-mlx.sh에서 로그 파일 정리 추가

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-25 22:05:30 +09:00
MyeonghoeLee
fe00782db1 Qwen3.5 + Open WebUI 로컬 서빙 환경 셋업
Ollama 방식과 vllm-mlx(MLX) 방식 두 가지 셋업 스크립트 및 가이드 포함.
transformers fast image processor 호환성 패치 자동 적용.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-25 21:36:28 +09:00