PRO-BIM Logo

PRO-BIM Tools / Premium

Transkrypcja audio AI lokalnie w przeglądarce

Eksperymentalne narzędzie premium do zamiany nagrania audio lub wideo na tekst. Plik jest przetwarzany po stronie przeglądarki użytkownika z użyciem Transformers.js i modeli z rodziny Whisper, bez wysyłania samego nagrania na serwer PRO-BIM.

Po co

Notatki ze spotkań, nagrania techniczne i szybki brudnopis

Transkrypcja mowy na tekst przydaje się wtedy, gdy nagranie ma być początkiem dalszej pracy: notatki po spotkaniu, szkicu artykułu, listy zadań, opisu filmu, streszczenia konsultacji albo uporządkowania własnych myśli po nagraniu głosowym. W kontekście PRO-BIM to narzędzie pasuje do technicznego warsztatu: najpierw zbieramy surową wypowiedź, potem dopiero redagujemy ją w świadomy tekst.

Prywatność

Serwer nie robi transkrypcji

Ten moduł nie jest usługą, w której wysyłasz plik audio do mojego backendu. Po odblokowaniu Premium przeglądarka użytkownika pobiera bibliotekę i model, a obliczenia wykonuje lokalnie. To zmniejsza koszt serwera i jest uczciwe wobec zasobów strony, ale oznacza też, że szybkość zależy od komputera, przeglądarki i długości nagrania.

Ograniczenia

To nie jest magiczny stenograf

Modele ASR mogą mylić nazwy własne, skróty branżowe, nazwiska, liczby, jednostki i pojęcia techniczne. Szum, echo, kilka osób mówiących naraz albo słaby mikrofon pogorszą wynik. Transkrypcję trzeba traktować jako wersję roboczą, którą warto sprawdzić przed publikacją, wysłaniem klientowi albo użyciem jako dokumentacji.

Panel Premium

Wybierz nagranie i uruchom transkrypcję

Obsługiwane są typowe pliki audio i wideo, jeśli przeglądarka potrafi je odczytać. Domyślnie ustawiony jest mocniejszy model `large-v3-turbo`, bo w praktyce to najrozsądniejszy wybór jakościowy dla wielojęzycznej transkrypcji, także po polsku.

Sprawdzam Premium...

Funkcja chroniona kontem Premium

Opis narzędzia jest publiczny, ale przetwarzanie pliku jest dostępne tylko dla kont Premium. Po zalogowaniu możesz poprosić o dostęp w tym samym modalu, którego używa generator QR.

Przeciągnij plik audio lub wideo

Albo wybierz plik z dysku. Na start najlepiej użyć krótkiego nagrania, np. 1-5 minut.

Plik nie jest wysyłany do backendu PRO-BIM.
Nie wybrano pliku.

Ustawienia modelu

Narzędzie analizuje cały wybrany plik. Dłuższe nagrania są dzielone technicznie na krótsze porcje w tle, żeby model mógł pracować stabilniej w przeglądarce.

Etap: oczekiwanie na plik
Czas: 00:00
Fragmenty: jeszcze nie rozpoczęto

Sprawdzam dostęp Premium...

Wynik transkrypcji

Po uruchomieniu narzędzia częściowy tekst może pojawiać się w trakcie pracy modelu. Jeżeli dana przeglądarka nie udostępni strumieniowania, wynik zostanie wpisany po zakończeniu analizy całego pliku.

Jak działa lokalne ASR Large v3 Turbo i lżejsze modele WebGPU i wydajność Prywatność i ograniczenia

Jak działa transkrypcja audio AI w przeglądarce

Klasyczna transkrypcja audio w aplikacji internetowej często polega na wysłaniu pliku do serwera, przetworzeniu go przez model AI i odesłaniu gotowego tekstu. Ten wariant jest wygodny, ale kosztowny i wrażliwy prywatnościowo. W PRO-BIM ten eksperyment jest zaprojektowany inaczej: strona pobiera bibliotekę Transformers.js oraz wybrany model ASR do przeglądarki, a użytkownik wykonuje obliczenia na własnym komputerze.

Technicznie jest to automatyczne rozpoznawanie mowy, czyli ASR. Model nie „rozumie” nagrania jak człowiek. Zamienia sygnał audio na reprezentację, a potem przewiduje kolejne fragmenty tekstu. Dlatego jakość wyniku zależy od jakości nagrania, języka, akcentu, tła dźwiękowego, długości wypowiedzi i dobranego modelu.

Jaki model wybrać: Large v3 Turbo i lżejsze warianty

Domyślnie ustawiony jest `whisper-large-v3-turbo` w wersji ONNX przygotowanej dla Transformers.js. To mocniejszy model niż `small`, oparty o rodzinę Whisper Large v3, ale zoptymalizowany tak, żeby był praktyczniejszy w użyciu niż pełny `large-v3`. Dla języka polskiego taki wielojęzyczny model jest rozsądnym wyborem jakościowym: lepiej radzi sobie z akcentem, dłuższymi zdaniami, nazwami własnymi i mniej idealnym nagraniem niż małe warianty.

Lżejsze modele nadal zostają w panelu, bo są przydatne na słabszym sprzęcie albo do szybkiego testu pliku. `small` jest dobrym kompromisem, `base` pozwala zejść niżej z obciążeniem, a `tiny` warto traktować jako szybki test działania przeglądarki, a nie docelowy model jakościowy. Jeżeli zależy Ci na najlepszym tekście po polsku, zacznij od `Large v3 Turbo`; jeżeli komputer zaczyna się dławić, przejdź na `small`.

WebGPU, WASM i realna wydajność

Transformers.js może korzystać z WebGPU, czyli mechanizmu pozwalającego uruchamiać obliczenia na GPU bezpośrednio w przeglądarce. To jest nowoczesny kierunek dla narzędzi AI na stronach internetowych, ale nie każda przeglądarka i nie każdy komputer wspierają go tak samo. Jeśli WebGPU nie zadziała, narzędzie może próbować działać przez WASM/CPU, co zwykle jest wolniejsze.

W trybie `Auto` narzędzie wybiera WebGPU, jeśli przeglądarka udostępnia `navigator.gpu`. W trybie `WebGPU` próbujemy wymusić backend GPU wprost. Nadal nie oznacza to stuprocentowego obciążenia karty graficznej: przeglądarka, ONNX Runtime Web i Transformers.js dzielą pracę na etapy, część dekodowania oraz tokenizacji zostaje po stronie CPU, a system może pokazywać obciążenie GPU jako krótkie piki zamiast stałego maksimum.

Najbardziej przewidywalne wyniki będą na aktualnych wersjach Chrome albo Edge na komputerze stacjonarnym lub laptopie. Na telefonach, starszych komputerach, słabszych kartach graficznych albo w przeglądarkach z ograniczonym WebGPU transkrypcja może być powolna. To nie jest błąd strony, tylko koszt lokalnego przetwarzania AI po stronie użytkownika.

Prywatność, limity i odpowiedzialne użycie

To narzędzie nie powinno być używane jako jedyne źródło dokumentacji spotkania. Transkrypcja może pominąć fragment, źle zapisać nazwę firmy, pomylić liczbę, jednostkę albo termin techniczny. Wynik trzeba traktować jako szkic. Przy treściach projektowych, umowach, uzgodnieniach technicznych albo danych poufnych należy wykonać ręczną korektę i sprawdzić najważniejsze informacje.

Panel administracyjny zapisuje wyłącznie minimalny licznik użycia narzędzia premium: informację, że uruchomiono transkrypcję audio AI. Nie są zapisywane pliki, treść nagrania, treść transkrypcji ani ustawienia wybrane przez użytkownika. Ten licznik pomaga ocenić, które funkcje Premium są rzeczywiście używane i które warto dalej rozwijać.

Warto też pamiętać, że model jest pobierany z zewnętrznej infrastruktury Hugging Face/CDN. Sam plik audio nie jest wysyłany do backendu PRO-BIM, ale przeglądarka musi pobrać kod biblioteki i pliki modelu. To dlatego pierwsze uruchomienie może potrwać długo i wymaga połączenia z internetem.