Deepfake w Biznesie: Jak Ataki Głosowe i Wideo Wymuszają Przelewy z Polskich Firm [Vishing 2026]
Klasyczny phishing ewoluuje. W 2026 roku przestępcy nie ograniczają się już do fałszywych emaili — łączą wiadomości elektroniczne, komunikatory, SMS-y i rozmowy telefoniczne w wielokanałowe scenariusze ataku, w których głos Twojego prezesa brzmi dokładnie tak, jak powinien. Problem w tym, że ten głos został wygenerowany przez sztuczną inteligencję w kilka sekund.
Generatywna AI obniżyła próg wejścia w tworzenie deepfake’ów do poziomu bliskiego zeru. Wystarczy kilkanaście sekund próbki audio — ze spotkania firmowego, nagrania na LinkedIn czy wywiadu — aby stworzyć syntetyczny głos nieodróżnialny od oryginału. Polszczyzna, jeszcze niedawno uważana za barierę dla modeli językowych, przestała stanowić problem. Jednocześnie świadomość zagrożenia w polskich firmach pozostaje alarmująco niska.
Dane z raportu „Cyberportret polskiego biznesu 2025” (ESET/DAGMA) ilustrują skalę luki:
| Wskaźnik świadomości | Wartość |
|---|---|
| Pracownicy nieznający pojęcia deepfake | 58% |
| Pracownicy, którzy uznali nagranie AI za wiarygodne | 27% |
| Pracownicy niezdolni ocenić autentyczności nagrania | 30% |
| Firmy przygotowane na ataki deepfake | 28% |
| Próby fraudu BEC zidentyfikowane globalnie w 2025 (Cloudflare) | 123 mln USD |
Niniejszy artykuł stanowi kontynuację naszej analizy phishingu w polskich kampaniach 2026. Przechodzimy od fałszywych emaili do fałszywych głosów i twarzy — dekonstruujemy anatomię ataków deepfake na firmy, analizujemy realne przypadki i dostarczamy gotowej procedury obronnej dla organizacji każdej wielkości.
Czym jest deepfake i dlaczego zmienia zasady gry
Deepfake to nagranie audio lub wideo wygenerowane w całości lub częściowo przez sztuczną inteligencję, mające wiernie naśladować wygląd, głos i sposób zachowania konkretnej osoby. W kontekście cyberbezpieczeństwa wyróżniamy trzy kategorie deepfake’ów wykorzystywanych w atakach na firmy.
Deepfake audio (voice cloning). Sklonowany głos osoby — najczęściej prezesa, dyrektora finansowego lub kontrahenta — używany podczas rozmowy telefonicznej w celu wymuszenia przelewu lub zmiany procedury. To najczęstszy wektor ataku na polskie firmy, ponieważ wymaga najmniej materiału źródłowego i jest najtrudniejszy do zweryfikowania w czasie rzeczywistym.
Deepfake wideo (face swap / lip sync). Sfabrykowany obraz osoby podczas wideokonferencji lub w nagranym komunikacie. Wykorzystywany do uwiarygodnienia scenariusza ataku — np. „prezes” potwierdza polecenie przelewu podczas spotkania na Zoom. Wymaga więcej zasobów, ale skuteczność jest znacząco wyższa, bo ofiara widzi twarz rozmówcy.
Deepfake dokumentowy. Sfałszowane dokumenty tożsamości, pełnomocnictwa lub faktury wygenerowane z pomocą AI. Wykorzystywane jako element uwiarygodniający w kampaniach BEC (Business Email Compromise) i oszustwach na kontrahenta.
Kluczowa zmiana technologiczna w 2026 roku: nowoczesne narzędzia AI oferują tryb „speech-to-speech”, w którym głos atakującego jest przekształcany w głos ofiary niemal w czasie rzeczywistym. To oznacza, że przestępca prowadzi naturalną rozmowę telefoniczną — odpowiada na pytania, reaguje na przerywanie, dostosowuje ton — a ofiara słyszy głos osoby, którą zna.
Studia przypadków: gdy deepfake trafia do księgowości
Ataki deepfake na firmy nie są teorią — to udokumentowane incydenty o konkretnych kwotach strat. Poniższe przypadki ilustrują ewolucję zagrożenia i rosnące wyrafinowanie scenariuszy.
Przypadek 1: Wideokonferencja z fałszywym zarządem — 25,6 mln USD (Hongkong)
Pracownik działu finansowego międzynarodowej korporacji otrzymał email z centrali w Wielkiej Brytanii z poleceniem wykonania przelewu na kwotę 200 mln dolarów hongkońskich (ok. 25,6 mln USD). Początkowo podejrzewał phishing. Przestępcy przewidzieli tę reakcję — w kolejnym emailu przesłali link do wideokonferencji, na której obecni byli dyrektor finansowy oraz inni współpracownicy znani ofierze.
Na spotkaniu dyrektor osobiście potwierdził polecenie przelewu. Nic nie wzbudziło podejrzeń — rozmówcy wyglądali i zachowywali się normalnie. Pracownik wykonał przelew.
Dopiero po czasie okazało się, że wszyscy uczestnicy spotkania byli deepfake’ami wygenerowanymi w czasie rzeczywistym. Przestępcy wykorzystali publicznie dostępne nagrania kadry zarządzającej do stworzenia realistycznych awatarów, a całe spotkanie było inscenizacją prowadzoną z zewnętrznej lokalizacji.
Kluczowa lekcja: weryfikacja wizualna podczas wideokonferencji nie jest wystarczającym dowodem autentyczności. Atak zadziałał, ponieważ ofiara polegała na rozpoznawaniu twarzy zamiast na procedurze niezależnego potwierdzenia.
Przypadek 2: Głos dyrektora wymusza przelew — 35 mln USD (ZEA)
W Zjednoczonych Emiratach Arabskich pracownik banku otrzymał telefon od osoby, którą zidentyfikował jako dyrektora firmy-klienta. Głos był identyczny — ton, akcent, charakterystyczne zwroty. Rozmówca poinformował o pilnej transakcji związanej z przejęciem spółki i poprosił o natychmiastowy przelew.
Pracownik znał dyrektora od lat i nie miał powodu do podejrzeń. Przelew na kwotę 35 milionów dolarów został zrealizowany. Głos był syntetycznie wygenerowany na podstawie nagrań z publicznych wystąpień dyrektora.
Kluczowa lekcja: znajomość głosu rozmówcy — nawet wieloletnia — nie stanowi zabezpieczenia. Atakujący inwestują w rozpoznanie relacji interpersonalnych wewnątrz organizacji, by wybrać najbardziej wiarygodny scenariusz.
Przypadek 3: Polskie scenariusze BEC — wielokanałowy atak na MŚP
W polskich realiach ataki deepfake na firmy przybierają najczęściej formę wieloetapowego scenariusza łączącego email z rozmową telefoniczną. Typowy przebieg wygląda następująco:
- Pracownik działu księgowości otrzymuje email od „prezesa” z informacją o poufnej transakcji wymagającej natychmiastowej realizacji
- Kilka minut później dzwoni telefon — głos prezesa potwierdza treść emaila i podkreśla pilność sprawy
- Prezes prosi o dyskrecję: „Nie dzwoń do nikogo, to poufna operacja”
- Podany numer konta należy do słupa lub zagranicznej spółki-wydmuszki
Połączenie dwóch kanałów komunikacji — email plus głos — wielokrotnie zwiększa skuteczność ataku. Ofiara, słysząc znany głos potwierdzający treść emaila, uznaje sytuację za wiarygodną i pomija standardowe procedury autoryzacji.
CSIRT KNF w raporcie za 2025 rok zarejestrował 41 751 oszukańczych domen w polskim sektorze finansowym, a CERT Polska odnotował rekordowe 273 tysiące incydentów — wzrost o 150% w stosunku do roku poprzedniego. Coraz większy odsetek tych incydentów wykorzystuje elementy syntetycznych mediów.
Anatomia ataku: krok po kroku od rekonesansu do przelewu
Zrozumienie mechaniki ataku deepfake jest kluczowe dla budowania skutecznej obrony. Każdy atak na firmę przechodzi przez pięć faz, z których tylko ostatnia jest widoczna dla ofiary.
Faza 1: Rekonesans i profilowanie. Atakujący identyfikuje strukturę organizacyjną firmy — najczęściej poprzez LinkedIn, stronę internetową i KRS. Szuka osoby decyzyjnej (prezes, dyrektor finansowy) oraz osoby wykonawczej (księgowa, asystentka, pracownik finansów). Analizuje relacje: kto komu podlega, kto ma dostęp do rachunków, jakie są procedury zatwierdzania przelewów. To etap, na którym technologia OSINT jest wykorzystywana przeciwko firmie.
Faza 2: Pozyskanie próbki głosu. Atakujący potrzebuje kilkunastu sekund nagrania głosu osoby, pod którą się podszywa. Źródła: wystąpienia publiczne, wywiady w mediach, nagrania z konferencji, relacje wideo w mediach społecznościowych, wiadomości głosowe na LinkedIn. Im więcej materiału publicznego, tym łatwiejszy cel.
Faza 3: Przygotowanie scenariusza. Przestępca buduje wiarygodny pretekst. Najbardziej skuteczne tematy w polskich warunkach to: pilna płatność za przejęcie, poufna transakcja wymagająca dyskrecji, korekta numeru konta kontrahenta przed terminem płatności faktury, audit lub kontrola wymagająca natychmiastowego działania. Scenariusz jest konstruowany tak, aby wywołać presję czasu i zablokować procedurę weryfikacji.
Faza 4: Wielokanałowe dostarczenie. Atak łączy minimum dwa kanały: email przygotowujący grunt + telefon z deepfake’owym głosem potwierdzający polecenie. W zaawansowanych wariantach dodawany jest SMS lub wiadomość na komunikatorze firmowym. Każdy kolejny kanał wzmacnia wiarygodność scenariusza.
Faza 5: Eksfiltracja środków. Po wykonaniu przelewu pieniądze są natychmiast przekierowywane przez łańcuch kont w różnych jurysdykcjach. Czas na reakcję jest minimalny — odzyskanie środków po 24 godzinach jest praktycznie niemożliwe.
Czerwone flagi: jak rozpoznać deepfake podczas rozmowy
Deepfake audio nie jest doskonały. Mimo imponujących postępów technologii, syntetyczny głos wciąż pozostawia ślady, które uważny rozmówca jest w stanie wychwycić. Poniższe wskaźniki stanowią podstawę szkoleniową dla działów finansowych i administracyjnych.
Sygnały akustyczne. Metaliczny lub „plastikowy” posmak dźwięku — AI wiernie odtwarza barwę głosu, ale często gubi naturalną intonację lub obcina końcówki wyrazów. Nienaturalne pauzy między zdaniami (model potrzebuje ułamka sekundy na przetworzenie). Brak odgłosów tła, które normalnie towarzyszą rozmowie telefonicznej — cisza „studyjna” w trakcie rzekomo pilnego telefonu z samochodu powinna budzić podejrzenia.
Sygnały behawioralne. Presja czasu: każda prośba o „natychmiastowy przelew poza procedurą” to niemal pewne oszustwo. Nacisk na poufność: „Nie dzwoń do nikogo”, „To poufna operacja”, „Nie rozłączaj się” — te zwroty służą odcięciu ofiary od niezależnej weryfikacji. Unikanie pytań weryfikujących: gdy rozmówca zmienia temat po prośbie o podanie szczegółów znanych tylko prawdziwej osobie.
Sygnały kontekstowe. Nietypowa pora rozmowy — telefon „od prezesa” po godzinach pracy lub w weekend, gdy trudniej zweryfikować polecenie. Numer telefonu inny niż zapisany w kontaktach. Scenariusz, który wymaga obejścia ustalonych procedur autoryzacji przelewów.
| Kategoria sygnału | Przykłady | Poziom zagrożenia |
|---|---|---|
| Presja czasu | „Przelej natychmiast”, „Mamy 30 minut” | Krytyczny |
| Nacisk na poufność | „Nikomu nie mów”, „To poufne” | Krytyczny |
| Obejście procedury | „Wyjątkowo bez drugiego podpisu” | Krytyczny |
| Metaliczny dźwięk głosu | Nienaturalna intonacja, obcięte końcówki | Wysoki |
| Brak szumów tła | Nienaturalna cisza przy „pilnym” telefonie | Średni |
| Nietypowa pora | Weekend, późny wieczór | Średni |
Procedura obrony: wielowarstwowa strategia dla organizacji
Skuteczna obrona przed atakami deepfake wymaga połączenia rozwiązań proceduralnych, technologicznych i edukacyjnych. Żadna pojedyncza warstwa nie zapewnia pełnej ochrony — dopiero ich kombinacja buduje rzeczywistą odporność.
Warstwa 1: Procedury autoryzacji przelewów
Fundament obrony stanowią sztywne procedury, których nie można obejść niezależnie od tego, kto wydaje polecenie.
Zasada podwójnej autoryzacji. Każdy przelew powyżej ustalonego progu (np. 5 000 zł) wymaga zatwierdzenia przez dwie osoby niezależnie. Żadne polecenie telefoniczne — nawet od prezesa — nie jest wystarczającą podstawą do jednoautoryzacyjnego przelewu.
Zasada potwierdzenia innym kanałem. Jeśli polecenie przyszło emailem — potwierdzenie musi nastąpić telefonicznie (na numer z własnej książki kontaktów, nie z emaila). Jeśli polecenie przyszło telefonicznie — potwierdzenie musi nastąpić emailem lub osobiście. Nigdy tym samym kanałem.
Hasło weryfikacyjne. Ustalony z góry kod znany wyłącznie osobom uprawnionym do autoryzacji przelewów. Przy każdym niestandardowym poleceniu pytanie o hasło jest obowiązkowe. To rozwiązanie jest banalne, ale niezwykle skuteczne — deepfake nie zna Waszego wewnętrznego hasła.
Sztywne limity decyzyjne. Pracownik, nawet pod presją „prezesa”, nie powinien mieć technicznej możliwości obejścia ustalonych progów akceptacji. System bankowy powinien wymuszać podwójną autoryzację — nie procedura wewnętrzna, którą można złamać pod presją, lecz twarde ograniczenie w systemie.
Warstwa 2: Edukacja i symulacje
Standardowe szkolenia teoretyczne nie wystarczają. W 2026 roku konieczne są ćwiczenia praktyczne odwzorowujące realne scenariusze ataku.
Symulacje deepfake. Testy typu red teaming z wykorzystaniem syntetycznego audio — pracownicy konfrontowani z realistycznym atakiem w kontrolowanych warunkach. Celem nie jest „przyłapanie”, lecz budowanie odruchu weryfikacji.
Kultura „bezpiecznego nie”. Organizacja musi jasno komunikować: „Masz prawo odmówić wykonania polecenia, jeśli narusza procedurę — nawet jeśli dzwoni zarząd.” To zmiana kulturowa trudniejsza niż wdrożenie technologii, ale bez niej żadna procedura nie zadziała w warunkach realnego stresu. Więcej o psychologii budowania nawyków bezpieczeństwa.
Regularne ćwiczenia scenariuszowe. Krótkie symulacje „na sucho”: odgrywanie rozmowy z „szefem”, który wymusza niestandardowe działanie. Pracownicy, którzy przeszli takie ćwiczenie, reagują znacząco szybciej w realnych sytuacjach.
Warstwa 3: Technologia i monitoring
Rozwiązania techniczne uzupełniają procedury i edukację, ale ich nie zastępują.
Monitoring anomalii w komunikacji. Systemy korelujące zdarzenia z wielu kanałów: nietypowy email od „prezesa” + nietypowy numer telefonu + prośba o przelew = automatyczny alert dla działu bezpieczeństwa lub przełożonego.
Weryfikacja tożsamości w systemach bankowych. Biometryczne uwierzytelnianie operacji finansowych (nie tożsamości rozmówcy, lecz osoby inicjującej przelew w systemie) z użyciem kluczy sprzętowych FIDO2. Deepfake nie pomoże, jeśli przelew wymaga fizycznego klucza w porcie USB.
Canary tokens w infrastrukturze komunikacyjnej. Cyfrowe pułapki umieszczone w plikach konfiguracyjnych, listach kontaktów i katalogach wewnętrznych wykrywają moment, w którym atakujący prowadzi rekonesans infrastruktury firmy — zanim przejdzie do fazy ataku. To realizacja koncepcji aktywnej obrony w kontekście zagrożeń deepfake.
Wymogi regulacyjne: NIS2 i odpowiedzialność za brak procedur
Ataki deepfake na firmy wpisują się w zakres zagrożeń adresowanych przez dyrektywę NIS2 i nowelizację ustawy o krajowym systemie cyberbezpieczeństwa. Regulacje nakładają na podmioty kluczowe i ważne obowiązek wdrożenia środków zarządzania ryzykiem obejmujących szkolenia personelu z zakresu cyberbezpieczeństwa (art. 21 NIS2).
W praktyce oznacza to, że firma, która padnie ofiarą ataku deepfake i nie będzie w stanie wykazać wdrożonych procedur weryfikacji tożsamości oraz szkoleń pracowników, naraża się na konsekwencje regulacyjne. Kary osobiste dla kierowników sięgają 600% miesięcznego wynagrodzenia, a kary dla podmiotów kluczowych — do 10 mln EUR lub 2% globalnego obrotu.
Brak procedury potwierdzania przelewów innym kanałem nie jest „przeoczeniem” — w świetle NIS2 to rażące zaniedbanie obowiązku zarządzania ryzykiem.
Sprawdź swoją kwalifikację w checkliście NIS2. Oszacuj potencjalne koszty incydentu w kalkulatorze kosztów naruszenia danych.
Podsumowanie: wnioski operacyjne
Deepfake zmienił ekonomię ataków socjotechnicznych. Koszt stworzenia przekonującego klonu głosu jest bliski zeru, a potencjalny zysk z jednego udanego ataku sięga milionów. Ta asymetria będzie się pogłębiać — narzędzia stają się coraz lepsze, a świadomość w polskich firmach pozostaje na alarmująco niskim poziomie.
Koniec ery „ufam, bo słyszę”. W świecie deepfake’ów głos nie jest dowodem tożsamości. Polityka bezpieczeństwa musi jawnie stwierdzać, że rozmowa telefoniczna — bez względu na rozpoznawalność głosu — nigdy nie stanowi wystarczającej autoryzacji dla operacji finansowych.
Proceduralność ponad technologię. Proste rozwiązania — hasło weryfikacyjne, potwierdzenie innym kanałem, podwójna autoryzacja — skutecznie neutralizują nawet zaawansowane deepfake’i. Deepfake może podrobić głos, ale nie zna Waszego wewnętrznego hasła i nie przejdzie dwuetapowej weryfikacji.
Kulturowa zmiana jest najtrudniejsza. Pracownik, który nie czuje się upoważniony do odmowy wykonania polecenia „prezesa”, jest bezradny wobec scenariusza vishingowego. Wdrożenie kultury „bezpiecznego nie” wymaga zaangażowania zarządu — i jest wymogiem NIS2, nie opcją.
Twój plan na dziś:
- Ustal z zespołem hasło weryfikacyjne do autoryzacji niestandardowych przelewów
- Wprowadź zasadę potwierdzania innym kanałem — emailowe polecenia potwierdzaj telefonicznie i odwrotnie
- Skonfiguruj podwójną autoryzację dla przelewów powyżej ustalonego progu
- Przeszkol dział finansowy — pokaż im studia przypadków z tego artykułu
- Ogranicz publicznie dostępne nagrania kadry zarządzającej (wystąpienia, wywiady, relacje wideo)
- Sprawdź, czy Twoje dane nie wyciekły — wykorzystaj narzędzia z naszego poradnika
- Wdróż canary tokens w katalogach z danymi kontaktowymi — wykryjesz rekonesans, zanim nastąpi atak
- Sprawdź checklistę NIS2 — szkolenia personelu to wymóg regulacyjny
Chcesz przetestować odporność swojej organizacji na ataki socjotechniczne nowej generacji? Zapytaj o testy penetracyjne clev.one — symulacje ataków deepfake i vishing na Twój zespół. Potrzebujesz monitoringu wizerunku kadry zarządzającej w sieci? Sprawdź usługi wywiadowcze clev.one — OSINT i ochrona marki dla polskich firm.
Chcesz chronić swoje dane?
Zapisz się na listę oczekujących i otrzymaj 2 miesiące gratis.
Zapisz się teraz