Voice Mouse łączy:
# Ciągłe słuchanie i klikanie
python3 -m streamware.quick_cli voice-click listen_and_click
# Powiedz: "Kliknij w button zatwierdź"
# Bot: Robi screenshot → AI znajdzie przycisk → Kliknie!
# Kliknij konkretny przycisk
python3 -m streamware.quick_cli voice-click click --command "kliknij w button approve"
# Po angielsku
python3 -m streamware.quick_cli voice-click click --command "click the submit button" --language en
1. 🎤 Słuchasz: "Kliknij w button zatwierdź"
2. 📸 Screenshot: Zrzut ekranu
3. 🤖 AI Vision (LLaVA): Znajduje przycisk na ekranie
4. 🖱️ Klik: Klika w znalezione współrzędne
5. 🔊 Potwierdza: "Klikam w button zatwierdź"
# Podstawowe
"Kliknij w button zatwierdź"
"Kliknij w przycisk OK"
"Naciśnij button Approve"
"Wciśnij przycisk Submit"
"Wybierz opcję Continue"
# Z kontekstem
"Kliknij w zielony button"
"Kliknij w górny przycisk"
"Kliknij w prawy button"
"Click the approve button"
"Click on submit"
"Press the OK button"
"Select continue"
"Tap the accept button"
python3 -m streamware.quick_cli voice-click listen_and_click
# Powiedz: "Kliknij w accept all"
# Bot znajdzie i kliknie "Accept All" button!
# Kliknij w dowolny przycisk głosem
"Kliknij w button settings"
"Kliknij w przycisk opcje"
"Kliknij w menu"
# Test scenariusz głosowo
"Kliknij w button login"
# Czeka 2s
"Kliknij w submit"
# Czeka 2s
"Kliknij w confirm"
# 1. System packages
sudo apt-get install xdotool scrot
# 2. Ollama + LLaVA
ollama pull llava
# 3. Python (opcjonalne - dla głosu)
pip install SpeechRecognition PyAudio
from streamware.components import voice_click
# Test pojedynczego kliknięcia
result = voice_click("kliknij w button OK")
print(result)
from streamware import flow
# Pojedyncze kliknięcie
result = flow(
"voice_mouse://click?"
"command=kliknij w button zatwierdź&"
"language=pl"
).run()
# Wynik
{
"success": True,
"target": "button zatwierdź",
"x": 870,
"y": 130,
"method": "xdotool"
}
# Ciągłe słuchanie
result = flow(
"voice_mouse://listen_and_click?"
"iterations=10&"
"delay=2.0"
).run()
# Interaktywny mode
sq voice-click listen_and_click
# Pojedyncza komenda
sq voice-click click --command "kliknij w OK"
# Po angielsku
sq voice-click click --command "click submit" --language en
# Tylko przesunięcie (bez kliknięcia)
sq voice-click move --command "przesuń na button"
result = flow(
"voice_mouse://click?"
"command=kliknij w button&"
"screenshot=/tmp/custom_screen.png"
).run()
result = flow(
"voice_mouse://click?"
"command=kliknij w button&"
"confirm=false" # Nie mówi przed kliknięciem
).run()
# W komponencie media można ustawić timeout
# Domyślnie 60s, można zwiększyć
Analyze this screenshot and find the 'button zatwierdź' button or element.
Give me the EXACT pixel coordinates (x, y) of the CENTER of this element.
The screenshot resolution is typically 1920x1080 or similar.
Respond ONLY with coordinates in format: x,y
For example: 850,130
If you can't find the element, respond with: NOT_FOUND
Target to find: button zatwierdź
850, 130
xdotool mousemove 850 130
xdotool click 1
Problem: AI odpowiada “NOT_FOUND”
Rozwiązania:
Problem: Read timed out (60s)
Rozwiązanie:
# Screenshot w niższej rozdzielczości
subprocess.run(['scrot', '-q', '50', 'screen.png']) # 50% quality
Problem: FileNotFoundError: xdotool
Rozwiązanie:
sudo apt-get install xdotool
from streamware import flow
# Akceptuj wszystkie zmiany głosem
flow("voice://speak?text=Zaczynam automatyzację").run()
# Słuchaj i klikaj
result = flow(
"voice_mouse://listen_and_click?iterations=5"
).run()
# Mów: "Kliknij w accept all"
# Bot znajdzie i kliknie!
#!/bin/bash
# Wypełnij formularz głosowo
echo "Wypełniam formularz..."
# Kliknij każde pole
sq voice-click click --command "kliknij w pole name"
sq auto type --text "Jan Kowalski"
sq voice-click click --command "kliknij w pole email"
sq auto type --text "jan@example.com"
sq voice-click click --command "kliknij w button submit"
#!/bin/bash
# Test UI głosowo
test_steps=(
"kliknij w button start"
"kliknij w option 1"
"kliknij w next"
"kliknij w confirm"
"kliknij w finish"
)
for step in "${test_steps[@]}"; do
echo "Executing: $step"
sq voice-click click --command "$step"
sleep 2
done
echo "Test complete!"
Steruj komputerem głosem jak w filmach sci-fi! 🎤🖱️✨
# Tryb interaktywny
sq voice-click listen_and_click
# Pojedyncza komenda
sq voice-click click --command "kliknij w OK"
# Po angielsku
sq voice-click click --command "click submit" --language en
# Więcej iteracji
sq voice-click listen_and_click --iterations 20
# Python
from streamware.components import voice_click
result = voice_click("kliknij w button")