Artykuły

Źródła danych do treningu AI wysychają

Wizualizacja zbioru danych

Nowe badania przeprowadzone przez Data Provenance wykazały dramatyczny spadek dostępności danych używanych do tworzenia sztucznej inteligencji (AI). Przez lata, osoby budujące potężne systemy AI wykorzystywały ogromne zasoby tekstów, obrazów i filmów z Internetu, aby szkolić swoje modele. Jednak te dane obecnie szybko znikają.

Ograniczenia w dostępie do danych

W ciągu ostatniego roku wiele ważnych źródeł internetowych, które były wykorzystywane do trenowania modeli AI, ograniczyło wykorzystanie swoich danych. Badanie opublikowane przez grupę badawczą z MIT wykazało, że w zestawach danych używanych do szkolenia AI, takich jak C4, RefinedWeb i Dolma, ograniczono dostęp do 5% wszystkich z nich i 25% tych z najwyższej jakości źródeł.

Brak zgody na użycie danych

Odkryto „narastający kryzys zgody”, jako że wydawcy i platformy internetowe podjęły kroki, aby zapobiec zbieraniu ich danych. Możliwość ta została bowiem ograniczona przez warunki użytkowania stron internetowych.

Shayne Longpre, główny autor badania, zauważył, że „szybki spadek zgody na użycie informacji w sieci będzie miał konsekwencje nie tylko dla firm AI, ale także dla badaczy, naukowców akademickich i podmiotów niekomercyjnych”. Sztuczna inteligencja opiera się na danych jako głównym składniku do generowania treści. Z kolei jakość wspomnianych bezpośrednio przekłada się na jakość modeli AI.

Reakcje i adaptacje

W odpowiedzi na ograniczenia, niektóre firmy AI, takie jak OpenAI, Google czy Meta drenują dane swoich użytkowników, aby poprawić swoje systemy. Jednak coraz częstsze ograniczenia stawiają przed firmami AI nowe wyzwania, zmuszając je do szukania nowych źródeł lub tworzenia danych syntetycznych. Niestety mogą być one niewystarczające jako substytut tych tworzonych przez człowieka.

Wykluczenie z rozwoju technologii

Ograniczenia w dostępie do informacji mogą także stanowić problem dla mniejszych firm AI oraz badaczy akademickich. Polegają oni bowiem głównie na publicznych zestawach danych i nie są w stanie bezpośrednio licencjonować ich od wydawców. Dostęp do takich zbiorów staje się coraz bardziej ekskluzywny. Co z kolei może ograniczyć udział różnych grup w rozwijaniu i regulacji technologii AI.

Perspektywy na przyszłość

Problem dostępu do danych dla AI jest coraz bardziej zauważalny i wpływa na całą branżę. Potrzebne są nowe narzędzia, które pozwolą właścicielom stron internetowych precyzyjniej kontrolować wykorzystanie informacji. Ponadto, wielkie firmy AI muszą zacząć zastanawiać się nad bardziej zrównoważonym i uczciwym wykorzystaniem internetowych zasobów, aby uniknąć przyszłych blokad i ograniczeń.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *