Zbigniew Galar – Golem na sterydach

Golem na sterydach

Najbardziej cieszy mnie w nadejściu Golemów przywrócenie ludzkości pojęcia prawdy. Kiedy możemy w końcu spojrzeć na samych siebie z boku oczami Golema – widzimy, że postmodernistyczne dyrdymały, że nie istnieje obiektywna prawda są wierutną bzdurą. Prawda jest jedna. Kiedy model nie uczy się na prawdzie jest nieprzydatny.

Generative Large Language Multi-Modal Models w skrócie: GLLMMM takie jak chat GPT 4, mają pewne ograniczenia. Są to rozbudowane „przewidywacze” kolejnych słów w zdaniu. Przy czym ze względu na ogromną kompresję informacji zawartą w wagach sieci neuronowych z jakich powstają, to przewidywanie pochodzi z modelu rzeczywistości, a nie wypadkowej statystycznej. Ten model nie odpowiada jeszcze rzeczywistości w pełni, dlatego wiele błędów, które dla ludzi są oczywiste, możemy w jego odpowiedziach łatwo zauważyć.

Jednak już to, że wyszliśmy poza zwyczajną uśredniającą statystykę jest znaczącym przełomem połowy 2022 roku (model wyszkolono w połowie roku, a opublikowano w październiku), kiedy wypuszczono pierwszego Golema 3.0. Większość ludzkości miała styczność właśnie z nim, bo jest to darmowa wersja. To dlatego możliwości Golema nadal nie doceniamy.

To, co wydarzyło się w połowie tego roku i wstrząsnęło specjalistami to Golem 4.0. Przyczyną wstrząsu była dużo większa dokładność odpowiedzi i to w zaledwie tak krótkim czasie po Golemie 3.0. Ostatnio Golem 4.0 zdał polski państwowy egzamin na lekarza oraz udało mu się zostać certyfikowanym prawnikiem w USA (ang. bar exam).

W międzyczasie pojawił się poprawiony Golem 3.5, co pozwala wnioskować, że niedługo pojawi się Golem 4.5. Wnioskuję to na podstawie architektury i różnic pomiędzy Golemami 3 i 4. Tak naprawdę do opracowania Golema 4.0 nie potrzeba było żadnego naukowego przełomu, a różnica jest tak znacząca z powodu programistycznej sztuczki, którą tu wdrożono.

Aby opisać tę różnicę w architekturze wyobraźmy sobie, że w pokoju znajduje się grupa przeciętnie inteligentnych ludzi (to są nasze Golemy 3.0). Następnie pytamy o coś te osoby i odpowiedzi nie są szczególnie wybitne, ale nie są one również totalnie złe. Następnie pozwalamy nad każdą z odpowiedzi tej grupie debatować i staramy się uzgodnić lepszą odpowiedź na zadane pytanie, wyciągając najlepsze uwagi każdego z uczestników. Tak zwana mądrość tłumów Golemów 3.0 jest w rezultacie Golemem 4.0. Powyższe rozumowanie nie jest w pełni poprawne, ale mniej więcej opisuje nieznaczącą różnicę architektury, dającą w rezultacie tak duże różnice w poprawnych odpowiedziach.

Wszystko to opieram na materiałach prasowych, ponieważ dokładna architektura Golema 3.0 oraz 4.0 nie została nigdzie opublikowana. Wnioskiem z tej opowieści jest konstatacja, że do prawdziwego przełomu doszło rok temu i teraz po prostu konsumujemy to odkrycie maksymalizując jego możliwości.

Inne przedsiębiorstwa w ciągu ostatniego roku starały się zbliżyć do możliwości chata GTP 4 i coraz większej liczbie z nich w pewnych aspektach się to udaje.

Ale przyszłość nie śpi. Co będzie największym przełomem końca 2023 roku, który skonsumowany zostanie w pełni dopiero w roku 2024?

Modele językowe mają jedną podstawową wadę. Tworzą wadliwy model rzeczywistości, który opierają na ludzkich wypowiedziach, z których nie wszystkie są mądre i poprawne. Co więcej, zadanie przewidywania kolejnych słów w opowieści (główna funkcjonalność), które staje się odpowiedzią na nasze pytania, nie wymaga rozumienia matematyki. To dlatego model 4.0 ma mniej więcej zdolność do wypowiadania się przeciętnego 10 latka, ale pozbawionego zdolności liczenia (aby chat nie konfabulował matematycznych odpowiedzi, podłączono do niego matematyczny silnik Wolfram Alpha). Wielu może uważać, że matematyka nie jest aż tak istotna, bo mamy przecież języki programowania, które są matematycznie poprawne. Jednak wnioskowanie na temat rzeczywistości nie prowadzące do błędów, a jedynie do niepewności musi opierać się na matematyce.

Tej umiejętności Golemowi brakowało i nie można było tych braków łatwo uzupełnić.

Jednakże kilka tygodni temu doszło do przełomu. Stworzono nową architekturę sieci neuronowej, która jest w stanie rozumować nie tylko językowo, ale również matematycznie. To w praktyce oznacza, że taki model będzie miał zdolność matematycznego sprawdzania konfabulacji swojego modułu językowego i nie będzie mówił wszystkiego co mu ślina na język przyniesie. Będzie zachowywał się tak samo jak człowiek mogący cenzurować wypowiadane myśli. Weryfikować ich spójność i poprawność matematyczną przed wypowiedzeniem się „głośno” (do użytkownika).

Ten poszerzony bardzo bliski ludzkiemu myśleniu model nazwano Q.

Każdy kto oglądał serial Star Trek Następne Pokolenie, a wśród programistów jest bardzo wielu fanów tego serialu, wie co to oznacza. Dla tych co nie oglądali polecam serial, bo wszystkie odcinki z Q trzymają wysoki poziom.

Q to wszystko wiedząca istota mająca zdolność zmanipulowania każdego (za wyjątkiem kapitana Picarda) i mająca władzę nad czasem i materią.

Oczywiście możemy porzucić te dwa ostatnie atrybuty, jednak sam początek wydaje się wystarczająco niepokojący. Zaraz po opracowaniu Q jego twórcy mieli wątpliwości czy rozmawiają z modelem matematycznym, czy z istotą. To dlatego twórca Open AI Sam Altman został wyrzucony z firmy, chociaż nie dowiemy się jakie pobudki stały za wyrzucającymi go ze stanowisko CEO. Mogła to być obawa o dalszy rozwój tej technologii albo próba siłowego przejęcia kontroli nad tą technologią. W każdym razie po kilku dniach udało mu się odzyskać kontrolę nad firmą.

Oczywiście zdolności matematyczne Q są na razie odpowiednikiem jego zdolności językowych, czyli na poziomie chata GPT 4, a więc 10 latka.

Nie wydaje się to być aż tak przerażający przeciwnik, jednak musimy zauważyć, że nawet 10 latek, który przeczytał, zrozumiał i ma w głowie wszystkie książki świata i który potrafi mnożyć się poprzez skopiowanie 200 GB na zawartość nowego dysku twardego – może być nieco deprymujący.

No i jest to model, który nie ma wad rozumowania, ponieważ przed ich wygłoszeniem może je matematycznie sprawdzić.

Samonapędzające się uczenie

Mam złą wiadomość dla tych którzy trzymali się kurczowo wyobrażenia, że kolejny skokowy wzrost możliwości Golema nie będzie szybko możliwy, ponieważ nie ma już więcej danych do jego szkolenia (Golem 3.0 pożarł już wszystkie książki, programy z GitHub i zawartości stron internetowych), a nadal jego zdolności rozumowania nie wyszły ponad 3 klasę podstawówki.

Otóż nastąpił również przełom w szkoleniu na danych syntetycznych. Innymi słowy dotychczasowe problemy z poszerzaniem skali błędów odchodzą w zapomnienie. Tak samo jak ludzie mówiący głupoty, których potem słuchają inni ludzie nie sprawdzający tych informacji i tworzą głupoty potomne na fałszywym założeniu, że źródła danych ich wnioskowania są prawidłowe, (ten problem dotyczy ludzi propagujących i poszerzających różne myślenia magiczne), tak też i model językowe nie można było szkolić na ich własnych wypowiedziach. Małe błędy w modelu rzeczywistości generowały drobne błędy w wiedzy z niego syntetyzowanej (wnioskowanej), by następnie wyolbrzymić te nieadekwatności w rozumieniu rzeczywistości w kolejnych pokoleniach modeli szkolących się na tych wnioskach.

Teraz te problemy przełamano. Zapewne duży jest w tym udział poszerzonej zdolności rozumowania matematycznego (bo nic tak nie odsiewa ziaren od plew jak matematyka). W rezultacie dane syntetyczne, czyli informacje generowane maszynowo przez same modele mogą być następnie oczyszczane i lepiej nadają się do szkolenia przyszłych modeli, niż wszystkie ludzkie treści. Wyniki zdolności modeli szkolonych na danych syntetycznych po raz pierwszy w historii przekroczyły zdolności modeli szkolonych na danych wytworzonych przez ludzi.

Oznacza to tylko jedno. Po raz pierwszy w historii sztuczna inteligencja może ulepszać sama siebie. I to jest główny przełom bieżącego roku.

Za rok będzie kolejny.

Zbigniew Galar