GPT-Rosalind: model OpenAI dla badań biologicznych i odkrywania leków?

OpenAI zaprezentowało GPT-Rosalind – model językowy zaprojektowany specjalnie z myślą o naukach przyrodniczych, biologii molekularnej i procesie odkrywania leków. GPT-Rosalind od podstaw trenowano na danych biologicznych: sekwencjach genomowych, strukturach białkowych, literaturze biomedycznej i bazach związków chemicznych.

Spis treści

Czym jest GPT-Rosalind i dlaczego powstał

Nazwa modelu nawiązuje do Rosalind Franklin – krystalografki, której zdjęcia rentgenowskie DNA były kluczowe dla zrozumienia podwójnej helisy. Wybór patronki nie jest przypadkowy. GPT-Rosalind ma rozwiązywać problemy na styku struktury molekularnej i informacji zakodowanej w sekwencjach biologicznych.

Model łączy zdolności konwersacyjne dużych modeli językowych z głębokim rozumieniem biologii. Potrafi analizować sekwencje nukleotydowe, przewidywać wpływ mutacji punktowych na funkcję białka, sugerować potencjalne cele terapeutyczne i pomagać w projektowaniu cząsteczek kandydatów na leki. Według informacji opublikowanych przez OpenAI na stronie poświęconej nowym możliwościom GPT-Rosalind, model osiąga wyniki porównywalne ze specjalistycznymi narzędziami bioinformatycznymi, jednocześnie oferując interfejs konwersacyjny dostępny dla badaczy bez zaawansowanego przygotowania informatycznego.

Jak GPT-Rosalind wspiera proces odkrywania leków

Odkrywanie nowego leku to proces trwający średnio 10-15 lat i kosztujący miliardy dolarów. Większość kandydatów odpada na etapie przedklinicznym. GPT-Rosalind adresuje kilka wąskich gardeł tego procesu.

Po pierwsze, identyfikacja celów molekularnych. Model potrafi przeszukiwać literaturę naukową i bazy danych genomowych, aby wskazać białka lub szlaki sygnałowe powiązane z daną chorobą. Po drugie, wirtualny screening – GPT-Rosalind może oceniać prawdopodobieństwo wiązania małych cząsteczek z określonym celem białkowym, redukując liczbę eksperymentów mokrych potrzebnych na wczesnym etapie. Po trzecie, optymalizacja właściwości farmakokinetycznych – model sugeruje modyfikacje strukturalne poprawiające biodostępność, stabilność metaboliczną czy selektywność.

To przypomina trochę pracę doświadczonego chemika medycznego, który przeczytał wszystkie publikacje w dziedzinie i pamięta każdą strukturę krystalograficzną z Protein Data Bank. Tyle że odpowiada w sekundy zamiast tygodni.

Architektura i dane treningowe

GPT-Rosalind bazuje na architekturze transformerowej, ale z istotnymi modyfikacjami. Model był trenowany na wielomodalnych danych biologicznych – nie tylko tekście naukowym, ale również surowych sekwencjach DNA/RNA, strukturach białek w formacie PDB, danych z eksperymentów high-throughput screening oraz ontologiach biomedycznych takich jak Gene Ontology.

Kluczowym elementem jest zdolność do rozumienia kontekstu molekularnego. Kiedy badacz pyta o konkretną mutację w genie BRCA1, model nie tylko cytuje literaturę – potrafi przewidzieć konsekwencje strukturalne tej mutacji dla domeny wiążącej DNA i odnieść to do danych klinicznych. Integracja różnych poziomów informacji biologicznej – od sekwencji przez strukturę po fenotyp – wyróżnia GPT-Rosalind na tle wcześniejszych modeli, takich jak AlphaFold opisywany w kontekście biologii strukturalnej.

Praktyczne zastosowania w laboratorium

Wyobraź sobie biologa molekularnego, który bada mechanizm oporności bakterii na antybiotyki. Zamiast ręcznie przeszukiwać setki publikacji i baz danych, formułuje pytanie w naturalnym języku. GPT-Rosalind analizuje dostępne dane o zmianach w genomie opornych szczepów, identyfikuje mutacje w genach kodujących cele antybiotyków, sugeruje mechanizm oporności i proponuje modyfikacje istniejących cząsteczek, które mogłyby obejść ten mechanizm.

Inny scenariusz: zespół pracujący nad terapią genową potrzebuje zaprojektować sekwencję guide RNA dla systemu CRISPR. Model przewiduje efektywność cięcia w konkretnym locus, ocenia ryzyko efektów off-target i sugeruje optymalne warianty. To zadania, które wcześniej wymagały użycia kilku osobnych narzędzi bioinformatycznych i godzin analizy.

Warto też zobaczyć, jak modele językowe LLM znajdują zastosowania w różnych branżach – biologia to tylko jeden z obszarów, w których duże modele językowe przynoszą wymierną wartość.