openwebui

7 Commits 1 Branch 0 Tags 77 KiB

Author	SHA1	Message	Date
MyeonghoeLee	71882ec684	vLLM 상세 가이드 (SETUP_VLLM.md) 추가 - 환경 준비 (nvidia-container-toolkit 설치 포함) - 파라미터 레퍼런스 (max-model-len, gpu-memory-utilization 등) - VRAM별 권장 설정 테이블 - 트러블슈팅 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 15:20:57 +09:00
MyeonghoeLee	1597a9140f	setup.sh VRAM 기반 판단 로직 추가 및 완전 자동화 - NVIDIA GPU VRAM 20GB 미만이면 vLLM 대신 Ollama 선택 - 사용자 확인 단계 제거, 감지 후 바로 실행 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 15:13:53 +09:00
MyeonghoeLee	f1890713a7	vLLM 지원 추가 및 통합 셋업/종료 스크립트 - setup.sh: 시스템 자동 감지 (Apple Silicon/NVIDIA GPU/RAM) → 최적 방식 선택 - stop.sh: 실행 중인 서비스 자동 감지 후 종료 - setup-vllm.sh / stop-vllm.sh: NVIDIA GPU + Docker 기반 vLLM 서빙 - docker-compose.vllm.yml 자동 생성 (vLLM + Open WebUI) - README 전면 개편 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 15:07:21 +09:00
MyeonghoeLee	bcd17b2951	입출력 토큰 제한 적용 (Ollama + MLX 모두) - MLX: --use-paged-cache + --max-cache-blocks로 입력 8192 토큰 제한 - MLX: --kv-cache-quantization 기본 적용 - Ollama: Modelfile로 num_ctx(입력), num_predict(출력) 설정 - SETUP_MLX.md에 토큰 제한 설명 추가 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-25 22:32:57 +09:00
MyeonghoeLee	ce0233985f	README 추가 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-25 22:06:46 +09:00
MyeonghoeLee	b9e448af0d	vllm-mlx 서버 백그라운드 실행 및 멀티모달 고정 - 서버를 백그라운드로 실행 (로그는 vllm-mlx.log에 저장) - 모드 선택 제거, 멀티모달(--mllm) 고정 - 서버 준비 대기 로직 추가 - stop-mlx.sh에서 로그 파일 정리 추가 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-25 22:05:30 +09:00
MyeonghoeLee	fe00782db1	Qwen3.5 + Open WebUI 로컬 서빙 환경 셋업 Ollama 방식과 vllm-mlx(MLX) 방식 두 가지 셋업 스크립트 및 가이드 포함. transformers fast image processor 호환성 패치 자동 적용. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-25 21:36:28 +09:00