Jak działa transkrypcja audio AI w przeglądarce
Klasyczna transkrypcja audio w aplikacji internetowej często polega na wysłaniu pliku do serwera, przetworzeniu go przez model AI i odesłaniu gotowego tekstu. Ten wariant jest wygodny, ale kosztowny i wrażliwy prywatnościowo. W PRO-BIM ten eksperyment jest zaprojektowany inaczej: strona pobiera bibliotekę Transformers.js oraz wybrany model ASR do przeglądarki, a użytkownik wykonuje obliczenia na własnym komputerze.
Technicznie jest to automatyczne rozpoznawanie mowy, czyli ASR. Model nie „rozumie” nagrania jak człowiek. Zamienia sygnał audio na reprezentację, a potem przewiduje kolejne fragmenty tekstu. Dlatego jakość wyniku zależy od jakości nagrania, języka, akcentu, tła dźwiękowego, długości wypowiedzi i dobranego modelu.
Jaki model wybrać: Large v3 Turbo i lżejsze warianty
Domyślnie ustawiony jest `whisper-large-v3-turbo` w wersji ONNX przygotowanej dla Transformers.js. To mocniejszy model niż `small`, oparty o rodzinę Whisper Large v3, ale zoptymalizowany tak, żeby był praktyczniejszy w użyciu niż pełny `large-v3`. Dla języka polskiego taki wielojęzyczny model jest rozsądnym wyborem jakościowym: lepiej radzi sobie z akcentem, dłuższymi zdaniami, nazwami własnymi i mniej idealnym nagraniem niż małe warianty.
Lżejsze modele nadal zostają w panelu, bo są przydatne na słabszym sprzęcie albo do szybkiego testu pliku. `small` jest dobrym kompromisem, `base` pozwala zejść niżej z obciążeniem, a `tiny` warto traktować jako szybki test działania przeglądarki, a nie docelowy model jakościowy. Jeżeli zależy Ci na najlepszym tekście po polsku, zacznij od `Large v3 Turbo`; jeżeli komputer zaczyna się dławić, przejdź na `small`.
WebGPU, WASM i realna wydajność
Transformers.js może korzystać z WebGPU, czyli mechanizmu pozwalającego uruchamiać obliczenia na GPU bezpośrednio w przeglądarce. To jest nowoczesny kierunek dla narzędzi AI na stronach internetowych, ale nie każda przeglądarka i nie każdy komputer wspierają go tak samo. Jeśli WebGPU nie zadziała, narzędzie może próbować działać przez WASM/CPU, co zwykle jest wolniejsze.
W trybie `Auto` narzędzie wybiera WebGPU, jeśli przeglądarka udostępnia `navigator.gpu`. W trybie `WebGPU` próbujemy wymusić backend GPU wprost. Nadal nie oznacza to stuprocentowego obciążenia karty graficznej: przeglądarka, ONNX Runtime Web i Transformers.js dzielą pracę na etapy, część dekodowania oraz tokenizacji zostaje po stronie CPU, a system może pokazywać obciążenie GPU jako krótkie piki zamiast stałego maksimum.
Najbardziej przewidywalne wyniki będą na aktualnych wersjach Chrome albo Edge na komputerze stacjonarnym lub laptopie. Na telefonach, starszych komputerach, słabszych kartach graficznych albo w przeglądarkach z ograniczonym WebGPU transkrypcja może być powolna. To nie jest błąd strony, tylko koszt lokalnego przetwarzania AI po stronie użytkownika.
Prywatność, limity i odpowiedzialne użycie
To narzędzie nie powinno być używane jako jedyne źródło dokumentacji spotkania. Transkrypcja może pominąć fragment, źle zapisać nazwę firmy, pomylić liczbę, jednostkę albo termin techniczny. Wynik trzeba traktować jako szkic. Przy treściach projektowych, umowach, uzgodnieniach technicznych albo danych poufnych należy wykonać ręczną korektę i sprawdzić najważniejsze informacje.
Panel administracyjny zapisuje wyłącznie minimalny licznik użycia narzędzia premium: informację, że uruchomiono transkrypcję audio AI. Nie są zapisywane pliki, treść nagrania, treść transkrypcji ani ustawienia wybrane przez użytkownika. Ten licznik pomaga ocenić, które funkcje Premium są rzeczywiście używane i które warto dalej rozwijać.
Warto też pamiętać, że model jest pobierany z zewnętrznej infrastruktury Hugging Face/CDN. Sam plik audio nie jest wysyłany do backendu PRO-BIM, ale przeglądarka musi pobrać kod biblioteki i pliki modelu. To dlatego pierwsze uruchomienie może potrwać długo i wymaga połączenia z internetem.