Czym jest Dane syntetyczne (Synthetic Data)?
Dane syntetyczne to sztucznie wygenerowane zbiory informacji, które odwzorowują strukturę statystyczną danych rzeczywistych, lecz nie zawierają rekordu żadnego konkretnego podmiotu czy zdarzenia. W szerszym ujęciu obejmują one zarówno w pełni symulowane obserwacje, jak i hybrydowe kombinacje fragmentów danych prawdziwych z wygenerowanymi. Kluczowym celem jest zachowanie użyteczności analitycznej przy jednoczesnym ograniczeniu ryzyka ujawnienia danych wrażliwych.
Krótki kontekst historyczny
Pojęcie danych syntetycznych pojawiło się w literaturze statystycznej na początku lat dziewięćdziesiątych za sprawą badaczy takich jak Donald Rubin i Stephen Fienberg, którzy badali metody ochrony prywatności w spisach ludności. Praktyczne przyspieszenie nastąpiło po 2014 roku, gdy Ian Goodfellow zaprezentował sieci GAN, znacząco ułatwiając generowanie obrazów, dźwięku czy tekstu o wysokiej jakości. Obecnie instytucje badawcze – od MIT po European Data Protection Supervisor – publikują wytyczne wspierające wykorzystanie danych syntetycznych w badaniach i przemyśle.
Jak dokładnie działa Dane syntetyczne (Synthetic Data)
Proces rozpoczyna się od uczenia modelu statystycznego lub generatywnej sieci neuronowej na zbiorze referencyjnym. Algorytm uczy się zależności pomiędzy atrybutami, a następnie, korzystając z sampli z rozkładu prawdopodobieństwa, tworzy nowe rekordy pozbawione bezpośredniego powiązania z oryginałem. Na poziomie technicznym można wyróżnić podejście tablicowe, obrazowe, sekwencyjne oraz symulacyjne. W modelach tablicowych sprawdzają się rozkłady warunkowe i VAEs; w obrazach dominują GAN-y; sekwencje tekstowe generuje się transformerami, a złożone scenariusze ruchu drogowego powstają w silnikach fizycznych typu CARLA.
Zastosowania w praktyce
W diagnostyce obrazowej szpitale tworzą syntetyczne skany TK płuc, by trenować algorytmy wykrywające początkowe stadia nowotworu bez udostępniania poufnych danych pacjentów. W sektorze finansowym banki symulują portfele kredytowe do stres-testów, co pozwala ocenić ryzyko przy zachowaniu zgodności z regulacjami RODO. W motoryzacji producenci wykorzystują wirtualne scenariusze drogowe do szkolenia systemów wspomagania kierowcy, redukując koszty tradycyjnych testów w terenie.
Zalety i ograniczenia
Dane syntetyczne ułatwiają udostępnianie materiału do badań, eliminują problem nierównowagi klas w rzadkich przypadkach oraz chronią prywatność. W przeciwieństwie do klasycznych danych zebranych w terenie można je generować niemal dowolną liczbę razy, co sprzyja replikacji eksperymentów. Warto jednak pamiętać, że użyteczność zależy od jakości modelu – jeśli pierwotny zbiór zawiera bias, syntetyczny zbiór go utrwali. Modele mogą także w niezamierzony sposób „podglądać” unikatowe rekordy, jeżeli nie zaimplementowano technik typu differential privacy.
Na co uważać?
Choć dane syntetyczne ograniczają ryzyko naruszenia prywatności, nie gwarantują całkowitej anonimowości. Należy weryfikować stopień podobieństwa do oryginału za pomocą metryk, takich jak disclosure risk czy distance to closest record. Przesadne wygładzenie rozkładów może z kolei obniżyć wartość analityczną, prowadząc do zbyt optymistycznych modeli. W projektach komercyjnych szczególną uwagę zwraca się na zgodność z art. 25 RODO dotyczącym privacy by design.
Dodatkowe źródła
Kompleksowe omówienie metod generowania danych syntetycznych zawiera artykuł „Synthetic Data: Anonymisation Grounded in Reality” dostępny w serwisie arXiv. Definicje i przykłady zastosowań przedstawia Wikipedia. Praktyczne scenariusze dla zdrowia publicznego opisuje raport European Commission.


