streamware

llama.cpp + ROCm dla UM790 Pro

Wysokowydajne środowisko LLM z pełną akceleracją GPU AMD Radeon 780M (RDNA3).

Szybki start

# 1. Pobierz modele GGUF
./download-models.sh

# 2. Zbuduj i uruchom (pierwsze uruchomienie ~15 min)
./start.sh

# 3. Test API
curl http://localhost:8080/v1/models

Pliki

Plik Opis
Dockerfile Obraz z ROCm + llama.cpp
docker-compose.yml Konfiguracja z WebUI
download-models.sh Pobieranie modeli GGUF
start.sh Uruchomienie serwera
stop.sh Zatrzymanie serwera
benchmark.sh Test wydajności

API (OpenAI-compatible)

# Lista modeli
curl http://localhost:8080/v1/models

# Chat completion
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "default",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

# Completion
curl http://localhost:8080/completion \
  -H "Content-Type: application/json" \
  -d '{"prompt": "Write a haiku about programming:"}'

Zmiana modelu

# Uruchom z innym modelem
./start.sh mistral-7b-q4.gguf

# Lub zmień symlink
ln -sf mistral-7b-q4.gguf models/model.gguf
./start.sh

Benchmark

./benchmark.sh
# lub z konkretnym modelem:
./benchmark.sh llama-3.2-3b-q4.gguf

Oczekiwana wydajność na 780M

Model Rozmiar Prompt Generation
3B Q4 ~2GB ~100 t/s ~20 t/s
7B Q4 ~4GB ~50 t/s ~10 t/s