streamware

llama.cpp + ROCm dla UM790 Pro

Wysokowydajne środowisko LLM z pełną akceleracją GPU AMD Radeon 780M (RDNA3).

Szybki start

# 1. Pobierz modele GGUF
./download-models.sh

# 2. Zbuduj i uruchom (pierwsze uruchomienie ~15 min)
./start.sh

# 3. Test API
curl http://localhost:8080/v1/models

Pliki

Plik	Opis
`Dockerfile`	Obraz z ROCm + llama.cpp
`docker-compose.yml`	Konfiguracja z WebUI
`download-models.sh`	Pobieranie modeli GGUF
`start.sh`	Uruchomienie serwera
`stop.sh`	Zatrzymanie serwera
`benchmark.sh`	Test wydajności

API (OpenAI-compatible)

# Lista modeli
curl http://localhost:8080/v1/models

# Chat completion
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "default",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

# Completion
curl http://localhost:8080/completion \
  -H "Content-Type: application/json" \
  -d '{"prompt": "Write a haiku about programming:"}'

Zmiana modelu

# Uruchom z innym modelem
./start.sh mistral-7b-q4.gguf

# Lub zmień symlink
ln -sf mistral-7b-q4.gguf models/model.gguf
./start.sh

Benchmark

./benchmark.sh
# lub z konkretnym modelem:
./benchmark.sh llama-3.2-3b-q4.gguf

Oczekiwana wydajność na 780M

Model	Rozmiar	Prompt	Generation
3B Q4	~2GB	~100 t/s	~20 t/s
7B Q4	~4GB	~50 t/s	~10 t/s

This site is open source. Improve this page.