Metadane i OSINT: Co Twoje Dokumenty i Treści Zdradzają o Twojej Firmie
W 2005 roku seryjny morderca Dennis Rader (BTK Killer) wysłał policji dyskietkę z plikiem Worda. W metadanych dokumentu ukryte było imię autora — „Dennis” — oraz nazwa kościoła, w którym był aktywnym członkiem: Christ Lutheran Church. Te dwa pola metadanych, których Rader nawet nie wiedział, że istnieją, bezpośrednio doprowadziły do jego aresztowania po dekadach ucieczki przed wymiarem sprawiedliwości.
Ta historia ilustruje fundamentalną prawdę o metadanych: każdy plik cyfrowy niesie ze sobą warstwę informacji, której większość ludzi nigdy nie widzi — ale która może zdradzić tożsamość, lokalizację, narzędzia i historię edycji autora. W kontekście cyberbezpieczeństwa metadane są złotem OSINT — otwartoźródłowego wywiadu, który atakujący wykorzystują w fazie rekonesansu, zanim przejdą do właściwego ataku.
Badania wskazują, że w 89% spraw OSINT metadane dokumentów i zdjęć dostarczyły kluczowych poszlak identyfikacyjnych — w porównaniu do 34% dla danych sieciowych. Twoja firma publikuje dokumenty PDF, zdjęcia produktowe, oferty handlowe, materiały marketingowe i treści na stronie internetowej. Każdy z tych elementów może zawierać ukryte informacje — od imion i nazwisk pracowników, przez wersje oprogramowania, po fizyczną lokalizację biura.
Niniejszy artykuł analizuje, jakie informacje wyciekają przez metadane, jak atakujący je wykorzystują w rekonesansie przed atakiem na Twoją firmę, i jak oczyścić pliki zanim trafią w niepowołane ręce.
Co kryją metadane: trzy warstwy informacji
Metadane to dane o danych — ukryta warstwa informacji osadzona w każdym pliku cyfrowym. Dzielą się na dwie kategorie.
Metadane opisowe — tworzone przez użytkownika, często nieświadomie: nazwa autora, nazwa organizacji, adres email, komentarze i notatki, słowa kluczowe. W pliku Word pole „Autor” wypełnia się automatycznie imieniem i nazwiskiem z konta Windows. W PDF pole „Creator” zdradza oprogramowanie użyte do stworzenia pliku. W wielu firmach pracownicy nie wiedzą, że ich imię i nazwisko jest osadzone w każdym dokumencie, który eksportują.
Metadane techniczne — tworzone automatycznie przez oprogramowanie i urządzenia: data utworzenia i modyfikacji, ścieżka pliku na dysku (np. C:\Users\JanKowalski\Documents\Oferty\Klient_ABC), wersja oprogramowania (np. „Microsoft Word 16.0.17029”), model urządzenia (w zdjęciach: „iPhone 15 Pro”), współrzędne GPS (w zdjęciach z geolokalizacją), historia edycji i śledzenie zmian.
Dokumenty biurowe: kopalnia informacji dla atakującego
Pliki PDF, Word, Excel i PowerPoint to najczęściej publikowane i udostępniane dokumenty w środowisku biznesowym — i jednocześnie najbogate źródło metadanych.
Co zdradza PDF wysłany klientowi
Typowy plik PDF wygenerowany z Worda zawiera: pole „Author” z imieniem i nazwiskiem pracownika (lub loginem systemowym), pole „Creator” z wersją oprogramowania (np. „Microsoft Word for Microsoft 365”), pole „Producer” z narzędziem konwersji (np. „Adobe PDF Library 23.8”), datę utworzenia i ostatniej modyfikacji, a w niektórych przypadkach — komentarze edytorów, śledzenie zmian i osadzone czcionki zdradzające środowisko systemowe.
Atak grupy APT28 (Fancy Bear) w 2016 roku dostarczył jednego z najgłośniejszych przykładów: phishingowe dokumenty Word używane w kampanii zawierały w polu „Last Modified By” imię zapisane cyrylicą — „Сергей” — co stało się kluczowym dowodem atrybucyjnym wiążącym atak z rosyjskimi służbami.
Co zdradza oferta handlowa w Excelu
Arkusze kalkulacyjne często zawierają ukryte arkusze (hidden sheets) z danymi roboczymi, historię zmian z nazwiskami kolejnych edytorów, ścieżki plików wskazujące strukturę katalogów firmowych (np. „\serwer\finanse\klienci\ABC") oraz osadzone obiekty (wykresy, obrazy) z własnymi metadanymi.
Dla atakującego prowadzącego rekonesans przed atakiem phishingowym lub BEC, te informacje są bezcenne: znają imiona pracowników, wersje oprogramowania (do dopasowania exploitów), strukturę organizacyjną i nazwy klientów.
Zdjęcia: gdy jedno zdjęcie zdradza Twoją lokalizację
Zdjęcia w formatach JPEG i TIFF zawierają dane EXIF (Exchangeable Image File Format) — automatycznie osadzone przez aparat lub telefon. Zakres tych danych potrafi zaskoczyć.
| Pole EXIF | Co zdradza | Ryzyko |
|---|---|---|
| GPS Latitude/Longitude | Dokładna lokalizacja wykonania zdjęcia | Atakujący zna adres biura/magazynu/domu |
| DateTime Original | Dokładna data i godzina | Atakujący zna godziny pracy, obecność w biurze |
| Make / Model | Model telefonu/aparatu | Dopasowanie exploitów do urządzenia |
| Software | Wersja oprogramowania edycyjnego | Identyfikacja narzędzi używanych w firmie |
| ImageDescription / UserComment | Komentarze fotografa | Potencjalnie poufne notatki |
| Serial Number | Numer seryjny urządzenia | Identyfikacja konkretnego urządzenia |
Przypadek z 2023 roku: grupa ransomware opublikowała ogłoszenie rekrutacyjne ze zrzutem ekranu. Dane EXIF zrzutu ujawniły, że obraz był edytowany na Ukrainie — zaprzeczając deklarowanej lokalizacji grupy. To samo EXIF, które pomogło badaczom zdemaskować przestępców, mogłoby pomóc przestępcom zlokalizować Twoich pracowników.
Większość platform społecznościowych (Facebook, Instagram, Twitter) deklaruje usuwanie danych EXIF z uploadowanych zdjęć — ale nie wszystkie robią to rzetelnie, a zdjęcia opublikowane na firmowej stronie internetowej, w ofertach PDF lub w komunikatorach firmowych często zachowują pełne metadane.
Treści internetowe: co Twoja strona mówi atakującemu
Metadane nie kończą się na plikach. Każda strona internetowa publikuje metadane w formie tagów HTML — title, description, robots, canonical, Open Graph, Twitter Cards — które są widoczne dla wyszukiwarek, botów i atakujących.
Z perspektywy OSINT, meta tagi strony internetowej dostarczają: nazwy CMS i wersji (np. „WordPress 6.5.3” w tagu generator — informacja o potencjalnych podatnościach), struktury URL ujawniającej architekturę aplikacji, meta tagów Open Graph z opisami przeznaczonymi „do wewnętrznego użytku” (zdarza się, że deweloper zostawia w OG description tekst roboczy lub poufne notatki), plików robots.txt i sitemap.xml ujawniających ukryte sekcje serwisu.
Narzędzie podgląd SERP bazgraj.pl pozwala sprawdzić, jak wyglądają meta tagi Twojej strony w wynikach Google — w tym title, description i strukturę URL. To ten sam widok, który widzi atakujący podczas rekonesansu. Jeśli Twoje meta tagi zawierają informacje, których nie chcesz upubliczniać — podgląd SERP pozwoli Ci to wykryć, zanim zrobi to ktoś niepowołany.
Jak atakujący wykorzystują metadane: łańcuch rekonesansu
Metadane są pierwszym krokiem w łańcuchu ataku — fazą rekonesansu, w której atakujący zbiera informacje o celu przed właściwym uderzeniem. Zrozumienie tego łańcucha pozwala zrozumieć, dlaczego higiena metadanych jest kwestią bezpieczeństwa, a nie estetyki.
Krok 1: Zbieranie dokumentów. Atakujący pobiera publicznie dostępne pliki PDF z Twojej strony (oferty, regulaminy, raporty, certyfikaty). Używa Google Dorks: site:twojafirma.pl filetype:pdf — i w kilka sekund ma listę wszystkich PDF-ów hostowanych na Twojej domenie.
Krok 2: Ekstrakcja metadanych. Narzędzie ExifTool (darmowe, open-source) w jednym poleceniu wyciąga wszystkie metadane ze wszystkich pobranych plików: exiftool -r -csv *.pdf > wyniki.csv. Atakujący otrzymuje tabelę z imionami autorów, wersjami oprogramowania, datami i ścieżkami plików.
Krok 3: Budowanie profilu organizacji. Z metadanych wynika: kto pracuje w firmie (imiona z pól Author), jakie oprogramowanie jest używane i w jakich wersjach (do identyfikacji podatności), jaka jest struktura katalogów (nazwy serwerów, udziałów sieciowych), kiedy pracownicy są aktywni (timestamps edycji).
Krok 4: Targetowanie ataku. Na podstawie profilu atakujący konstruuje spersonalizowany phishing lub deepfake: email napisany w stylu „Jan Kowalski” (bo zna jego imię z metadanych), powołujący się na „ofertę dla klienta ABC” (bo widział nazwę w ścieżce pliku), udający dokument z „Microsoft Word for Microsoft 365” (bo wie, jakiego oprogramowania używa firma).
To bezpośrednie połączenie z tematyką ataków socjotechnicznych i Shadow AI — metadane dostarczają kontekstu, który czyni te ataki wielokrotnie skuteczniejszymi.
Checklista oczyszczania: jak usunąć metadane przed publikacją
Najskuteczniejsza obrona to usunięcie metadanych zanim pliki opuszczą organizację. Poniżej przedstawiamy praktyczne procedury dla każdego typu pliku.
Dokumenty PDF i Office
Windows (wbudowane narzędzia): Kliknij prawym przyciskiem na plik → Właściwości → Szczegóły → „Usuń właściwości i informacje osobiste” → „Utwórz kopię z usuniętymi wszystkimi możliwymi właściwościami.”
Microsoft Office: Plik → Informacje → „Sprawdź, czy nie ma problemów” → „Sprawdź dokument” → zaznacz wszystkie kategorie → „Usuń wszystko.” Uwaga: ta procedura powinna być obowiązkowym krokiem przed każdym eksportem dokumentu na zewnątrz firmy.
Linux (ExifTool): exiftool -all= -overwrite_original dokument.pdf — usuwa wszystkie metadane jednym poleceniem. Dla całego katalogu: exiftool -all= -r -overwrite_original ./katalog_do_wyslania/
Zdjęcia
Przed publikacją na stronie: Usuń dane EXIF poleceniem exiftool -all= zdjecie.jpg lub użyj narzędzia ExifCleaner (GUI, darmowe). Szczególnie ważne: współrzędne GPS, model urządzenia i komentarze.
Zdjęcia produktowe i firmowe: Wszystkie zdjęcia przeznaczone na stronę internetową, do ofert i materiałów marketingowych powinny przechodzić przez pipeline czyszczenia metadanych jako standardowy krok procesu publikacji.
Treści internetowe
Audyt meta tagów strony to osobna warstwa higieny. Meta tagi HTML (title, description, OG tags) nie są „metadanymi do usunięcia” — to metadane do świadomego zarządzania. Powinny zawierać wyłącznie informacje, które chcesz upublicznić.
Sprawdź swoje meta tagi za pomocą podglądu SERP bazgraj.pl — narzędzie pokazuje dokładnie, jak Twoja strona wygląda w wynikach Google, w tym title, description i strukturę URL. Jeśli widzisz tam coś, czego nie chciałbyś zobaczyć w raporcie OSINT o Twojej firmie — popraw to.
Dodatkowe narzędzia do audytu treści: analiza gęstości SEO bazgraj.pl — weryfikuje, czy Twoje treści nie zawierają nienaturalnych powtórzeń (sygnał manipulacji lub niskiej jakości contentu), analiza czytelności bazgraj.pl — sprawdza naturalność struktury tekstu.
| Typ pliku | Co usunąć | Narzędzie | Koszt |
|---|---|---|---|
| Author, Creator, Producer, timestamps, komentarze | ExifTool / Adobe „Remove Hidden Info” | 0 zł | |
| Word/Excel/PowerPoint | Author, Last Modified By, śledzenie zmian, komentarze | Office „Sprawdź dokument” / ExifTool | 0 zł |
| Zdjęcia JPEG/TIFF | GPS, Make/Model, Serial Number, UserComment | ExifTool / ExifCleaner | 0 zł |
| Strona internetowa | Meta generator, ukryte komentarze HTML, robots.txt | Podgląd SERP bazgraj.pl | 0 zł |
Wymogi regulacyjne: RODO, NIS2 i obowiązek minimalizacji danych
Metadane zawierające imiona, nazwiska i adresy email pracowników stanowią dane osobowe w rozumieniu RODO. Publikacja dokumentu PDF z polem „Author: Jan Kowalski, kontakt@firma.pl” bez wiedzy i zgody pracownika rodzi pytania o zgodność z art. 5 (minimalizacja danych) i art. 6 (podstawa prawna przetwarzania).
Z perspektywy NIS2 i nowelizacji KSC, publikacja metadanych ujawniających wersje oprogramowania i strukturę infrastruktury to luka w zarządzaniu ryzykiem. Art. 21 NIS2 wymaga wdrożenia środków ograniczających powierzchnię ataku — a publicznie dostępne metadane tę powierzchnię poszerzają.
Wdrożenie procedury czyszczenia metadanych to działanie zgodne z zasadą „ochrony danych w fazie projektowania” (privacy by design, art. 25 RODO) i z wymogami minimalizacji danych. To nie dodatkowy koszt — to element obowiązkowej higieny informacyjnej.
Sprawdź swoją kwalifikację w checkliście NIS2. Oszacuj koszty incydentu w kalkulatorze kosztów naruszenia danych.
Podsumowanie: wnioski operacyjne
Metadane to cichy zdrajca. Każdy PDF, zdjęcie i strona internetowa Twojej firmy potencjalnie publikuje informacje, które atakujący wykorzysta w rekonesansie — imiona pracowników, wersje oprogramowania, lokalizację biura, strukturę organizacyjną. Usunięcie tych informacji kosztuje zero złotych i zajmuje sekundy. Ich pozostawienie może kosztować znacznie więcej.
Każdy plik opuszczający firmę powinien przejść przez czyszczenie metadanych. To powinien być standardowy krok — jak skanowanie antywirusowe przed wysyłką załącznika. ExifTool, wbudowane narzędzia Office i ExifCleaner są darmowe.
Meta tagi strony to metadane publiczne — zarządzaj nimi świadomie. Podgląd SERP bazgraj.pl pokazuje, co widzi atakujący podczas rekonesansu Twojej strony. Jeśli widzisz tam informacje, których nie chcesz ujawniać — popraw to, zanim ktoś z nich skorzysta.
OSINT zaczyna się od metadanych. W 89% spraw wywiadowczych to metadane dostarczyły kluczowych poszlak. Atak na Twoją firmę prawdopodobnie zacznie się od site:twojafirma.pl filetype:pdf — upewnij się, że wyniki tego zapytania nie ujawnią niczego, co ułatwi atak.
Twój plan na dziś:
- Sprawdź metadane ostatnich 5 dokumentów PDF opublikowanych na stronie firmowej:
exiftool *.pdf - Usuń metadane ze wszystkich publicznie dostępnych plików:
exiftool -all= -r ./katalog/ - Wdróż procedurę czyszczenia jako obowiązkowy krok przed publikacją/wysyłką
- Sprawdź meta tagi swojej strony w podglądzie SERP bazgraj.pl
- Wyłącz geolokalizację w aparatach firmowych telefonów
- Przeszkol zespół: „Prawy klik → Właściwości → Szczegóły — sprawdź, co wysyłasz”
- Wdróż canary tokens w katalogach z dokumentami — wykryjesz rekonesans, gdy atakujący zacznie pobierać Twoje pliki
- Sprawdź checklistę NIS2 — minimalizacja danych to wymóg regulacyjny
Chcesz sprawdzić, jakie informacje Twoja firma ujawnia publicznie przez metadane i treści internetowe? Zapytaj o analizę OSINT clev.one — profesjonalny rekonesans Twojej organizacji z perspektywy atakującego, identyfikacja wycieków metadanych i rekomendacje czyszczenia. Potrzebujesz testów odporności na ataki wykorzystujące publicznie dostępne informacje? Sprawdź testy penetracyjne clev.one — symulacje rekonesansu, phishing oparty na OSINT i weryfikacja higieny informacyjnej.
Chcesz chronić swoje dane?
Zapisz się na listę oczekujących i otrzymaj 2 miesiące gratis.
Zapisz się teraz