Nadzieje AI na 2026: Test Turinga-AGI, Open Source i Agenci
Published on 03.01.2026
Test Turinga-AGI: Nowy sposób mierzenia inteligencji maszyn
TLDR: Andrew Ng proponuje nowy test na AGI - Turing-AGI Test, który sprawdza czy AI potrafi wykonywać zadania pracownika zdalnego przez wiele dni, zamiast tylko udawać człowieka w czacie. Ma to na celu zdezinflowanie hype'u wokół AGI i ustawienie realistycznych oczekiwań.
Andrew Ng rozpoczyna rok 2026 od prowokacyjnego pytania: czy w końcu osiągniemy AGI? Zamiast jednak poddawać się marketingowej gorączce, proponuje konkretny, mierzalny test. Turing-AGI Test polega na tym, że testowany podmiot - człowiek lub komputer - otrzymuje dostęp do komputera z internetem, przeglądarką i Zoomem, a następnie musi przejść wielodniowe doświadczenie zawodowe: szkolenie, wykonywanie zadań i reagowanie na feedback. Dokładnie tak, jak zdalny pracownik bez kamery.
To genialne w swojej prostocie podejście. Oryginalny Test Turinga okazał się niewystarczający - konkurs Loebner Prize pokazał, że symulowanie ludzkich błędów typograficznych było ważniejsze od demonstrowania inteligencji. Ale dzisiejsze AI ma służyć do ekonomicznie użytecznej pracy, nie do oszukiwania sędziów.
Ng słusznie zauważa, że obecne benchmarki (GPQA, AIME, SWE-bench) mają fundamentalną wadę - są z góry określone, więc zespoły AI pośrednio dostrajają modele do zestawów testowych. W Turing-AGI Test sędzia może zaprojektować dowolne doświadczenie, nieujawnione wcześniej, co lepiej mierzy ogólność inteligencji.
Czego jednak Ng unika? Nie porusza kwestii, że taki test jest ekstremalnie drogi w przeprowadzeniu i subiektywny w ocenie. Kto będzie sędzią? Jak zapewnimy powtarzalność? Jak zdefiniujemy "wykonanie zadania na poziomie wykwalifikowanego człowieka"? To nie są trywialne problemy.
Dla architektów i zespołów kluczowy jest przekaz: przestańmy gonić za hipotetycznym AGI i skupmy się na konkretnych, mierzalnych zastosowaniach AI w workflow'ach. Jeśli wasza organizacja planuje projekty zakładając, że za rok-dwa AI będzie "inteligentne jak człowiek" - czas na reality check.
Kluczowe wnioski:
- AGI stało się terminem marketingowym bez precyzyjnego znaczenia
- Turing-AGI Test mierzy zdolność do pracy, nie do oszukiwania
- Nierealistyczny hype może doprowadzić do kolejnej "zimy AI"
- Firmy powinny planować projekty w oparciu o realne możliwości AI
Kompromisy:
- Wyższy próg dla "AGI" oznacza lepszą kalibrację oczekiwań, ale może zniechęcić inwestorów szukających szybkich zwrotów
- Test bez z góry określonego zestawu daje lepszą miarę ogólności, ale jest droższy i trudniejszy do standaryzacji
Link: The Batch - New Year Special
Open Source wygrywa: Przyszłość otwartej AI
TLDR: David Cox z IBM Research argumentuje, że prawdziwie otwarty rozwój AI jest kluczowy dla innowacji, bezpieczeństwa i unikania vendor lock-in. Przestrzega przed "faux-open" modelami od OpenAI i Meta, które nie ujawniają danych treningowych ani formuł.
David Cox rysuje fascynującą paralelę między dzisiejszą walką o otwartą AI a bitwą o open source w latach 90. Kiedy Linux, Apache i Eclipse stawiały czoła dominującym systemom własnościowym, kształtowało to internet jaki znamy. Teraz ta sama walka toczy się o przyszłość sztucznej inteligencji.
Cox nie owija w bawełnę: porównuje taktyki OpenAI i Meta do strategii Microsoftu z czasów, gdy firma rozdawała darmowe kopie Windows w rozwijających się krajach, żeby zdusić Linuxa. "Open" modele tych firm to tak naprawdę "faux-open" - nie ujawniają zbiorów treningowych, nie publikują formuł, nakładają limity na przychody. To projektowane, żeby zablokować konkurencję.
Szczególnie interesujący jest wątek geopolityczny. W Chinach istnieje prężny ekosystem open source AI, ale nakłada się na to brak zaufania między krajami. USA nie ufa modelom z Chin, Chiny nie ufają modelom z USA, Europa nie ufa nikomu. Prawdziwie otwarty rozwój rozwiązuje ten problem - każdy wie, na czym model był trenowany i jak.
IBM na Stanford Transparency Index zajmuje pierwsze miejsce z wynikiem 95%, o 23 punkty przed drugim miejscem. Cox kończy ironicznie: "Wiemy, że IBM ma reputację nudziarza. Ale nudne może być dobre. Nudne jest stabilne".
Dla architektów to jasny przekaz: przy wyborze AI stack'u myślcie o vendor lock-in. Model za API może stać się krytyczną infrastrukturą, której nie kontrolujecie. Otwarte modele dają nie tylko prawo do customizacji, ale też wiedzę o tym, jak zostały zbudowane.
Kluczowe wnioski:
- "Open" w nazwie nie oznacza prawdziwej otwartości
- Transparentność danych treningowych jest kluczowa dla zaufania
- Vendor lock-in to realne ryzyko przy AI-as-a-service
- Geopolityka wymusza większą transparentność
Kompromisy:
- Pełna transparentność buduje zaufanie, ale może ułatwić replikację przez konkurencję
- Otwarte modele eliminują vendor lock-in, ale wymagają większych kompetencji do wdrożenia
Link: The Batch - Open Source Wins by David Cox
AI dla odkryć naukowych: Od interpolacji do eksploracji
TLDR: Adji Bousso Dieng z Princeton argumentuje, że AI musi przejść od paradygmatu interpolacji (dopasowywania się do dominujących wzorców) do paradygmatu odkrywania rzeczy rzadkich i nieznanych. Kluczem jest traktowanie różnorodności jako głównego celu matematycznego.
To jeden z najbardziej głębokich esejów w tym numerze. Adji Bousso Dieng stawia fundamentalną tezę: przez ostatnią dekadę deep learning był mistrzem interpolacji - doskonale naśladuje rozkład danych treningowych. Świetne do chatbotów i asystentów kodowania. Ale nauka potrzebuje czegoś innego.
Problemem są "ogony rozkładu" - rzadkie przypadki. Nawet AlphaFold ma problemy z przewidywaniem struktury rzadkich protein. A wielkie wyzwania nauki - projektowanie nowych białek, odkrywanie nowych materiałów MOF do wychwytywania CO2 - nie da się sformułować jako problemy uczenia nadzorowanego. To problemy odkrywcze, gdzie szukamy rzeczy rzadkich.
Dieng proponuje radykalną zmianę: przestańmy maksymalizować dokładność i prawdopodobieństwa. Te cele z natury prowadzą modele do interpolacji i kolapsu do dominujących modów. Zamiast tego podnieśmy różnorodność do rangi pierwszorzędnego celu matematycznego.
W jej laboratorium Vertaix rozwinęli Vendi Score - metrykę różnorodności. W badaniach nad odkrywaniem materiałów optymalizacja Vendi Score pozwoliła znaleźć stabilne, energooszczędne MOF-y, które standardowe metody przeoczyły, bo nie potrafiły eksplorować przestrzeni bilionów materiałów.
Dla architektów systemów AI to ważna lekcja: jeśli wasze systemy mają wspierać innowacje, nie tylko automatyzację, musicie myśleć poza standardowymi metrykami. Czy wasz system nagradza odkrywanie nowych rozwiązań, czy tylko reprodukowanie znanych wzorców?
Kluczowe wnioski:
- AI interpolacyjne świetnie naśladuje, ale nie odkrywa
- Rzadkie przypadki są często najciekawsze naukowo
- Różnorodność powinna być celem matematycznym, nie tylko metryką ewaluacyjną
- Vendi Score może pomóc w eksploracji ogromnych przestrzeni poszukiwań
Kompromisy:
- Optymalizacja różnorodności pozwala odkrywać nowe rozwiązania, ale kosztem dokładności na znanych przypadkach
- Eksploracja ogonów rozkładu wymaga znacznie więcej zasobów obliczeniowych niż interpolacja
Link: The Batch - AI for Scientific Discovery by Adji Bousso Dieng
Edukacja, która współpracuje z AI, nie walczy z nim
TLDR: Juan M. Lavista Ferres z Microsoft argumentuje, że detektory AI w edukacji to iluzja - studenci zawsze znajdą sposób na ich obejście. Zamiast walczyć z AI, edukacja powinna projektować ocenianie dla świata, w którym AI istnieje.
To być może najbardziej kontrowersyjny esej w numerze. Ferres bezlitośnie rozprawia się z nadzieją, że detektory AI-generowanego tekstu uratują tradycyjny model edukacji. W laboratorium działają świetnie. W rzeczywistości - nie.
Strukturalny problem jest prosty: jeśli zbudujesz system wykrywający tekst AI, możesz użyć tego systemu do wytrenowania systemu, który go pokona. W momencie wdrożenia detektora, przedsiębiorcy zbudują produkty do jego łamania, a studenci nauczą się ich używać.
Ale największy problem to nie technologia - to zaufanie. Gdy nauczyciele polegają na wynikach detektorów, a studenci używają narzędzi do ich obchodzenia, relacja zamienia się w podejrzenie i osądzanie. Konfrontujesz studentów, nawigujesz apelacje, podejmujesz decyzje wysokiej stawki bez wiarygodnych dowodów. Co gorsza, ryzykujesz krzywdzenie niewłaściwych osób - szczególnie tych, dla których angielski nie jest pierwszym językiem.
Ferres proponuje pragmatyczne podejście: zakładajmy, że studenci będą używać AI, i projektujmy ocenianie, które w tej rzeczywistości nadal działa. Autentyczne demonstracje zrozumienia: egzaminy ustne, obrony, pisanie na żywo, prezentacje. Uczenie umiejętności AI: weryfikacja, cytowanie, świadomość biasu. Projektowanie dla AI, nie przeciwko niemu.
Dla architektów systemów edukacyjnych i korporacyjnych szkoleń to jasny przekaz: tradycyjne metody weryfikacji autorstwa są martwe. Czas na nowe podejścia.
Kluczowe wnioski:
- Detektory AI to wyścig zbrojeń, który edukacja przegra
- Problem nie jest techniczny, lecz relacyjny (zaufanie)
- Zakładaj użycie AI i projektuj ocenianie odpowiednio
- Egzaminy ustne i demonstracje na żywo są odporne na AI
Kompromisy:
- Przejście na ocenianie "live" buduje prawdziwe zaufanie, ale jest znacznie droższe i czasochłonne
- Akceptacja AI w edukacji przygotowuje do realnego świata, ale może osłabić fundamentalne umiejętności pisania
Link: The Batch - Education That Works With AI by Juan M. Lavista Ferres
Od predykcji do działania: AI w 2026
TLDR: Tanmay Gupta z Allen Institute argumentuje, że modele predykcyjne to zadania proxy - prawdziwa wartość ekonomiczna wymaga systemów, które działają w złożonych środowiskach przez dłuższy czas. Czas przejść od generowania do osiągania celów.
Gupta stawia tezę, która powinna być oczywista, ale często umyka: modele, które przewidują, to nie to samo co systemy, które działają. A potrzebujemy tych drugich.
Przez ostatnią dekadę staliśmy się mistrzami pasywnej predykcji - bounding boxy, transkrypcje, generowanie tekstu i obrazów. Imponujące osiągnięcia, ale to zadania proxy: zakładamy, że reprezentują ekonomiczną użyteczność, ale to błąd. Prawdziwe zadania nie kończą się na pojedynczej predykcji. Wymagają sekwencji działań w dynamicznych środowiskach, gdzie każde działanie zmienia stan i wpływa na kolejne.
Gupta używa świetnego przykładu: kodowanie. Modele kiedyś autouzupełniały linie, dziś agenci kodujący biorą specyfikację wysokiego poziomu, przeszukują codebase, uruchamiają testy i zwracają działające rozwiązanie przy minimalnej interwencji człowieka. Tę ewolucję trzeba przenieść do innych domen.
Przejście do zadań zorientowanych na cele ma dwie korzyści. Po pierwsze, odsłania ograniczenia obecnych modeli niewidoczne w zadaniach krótkohoryzontalnych - potrzeba trwałej pamięci, skupienia na celu przez dłuższy czas, reagowania na feedback w czasie rzeczywistym, radzenia sobie z niepewnością. Po drugie, wyrównuje badania AI z rzeczywistą użytecznością końcową.
Gupta kończy prowokacyjnie: przez lata NLP traktowało semantic parsing jako kluczowy komponent rozumienia języka. Dzisiejsze LLM-y rozumieją język bez explicit semantic parsing. Z perspektywy czasu, te godziny badawcze mogły być lepiej spożytkowane na rozwiązywanie końcowego zadania.
Kluczowe wnioski:
- Predykcja ≠ działanie, a wartość ekonomiczna wymaga działania
- Zadania proxy mogą prowadzić na manowce
- Agenci kodujący to wzorzec dla innych domen
- Długohoryzontalowe zadania odsłaniają prawdziwe ograniczenia modeli
Kompromisy:
- Fokus na zadaniach końcowych przyspiesza wartość biznesową, ale może prowadzić do pominięcia fundamentalnych badań
- Systemy agentowe są potężniejsze, ale znacznie trudniejsze do debugowania i testowania
Link: The Batch - From Prediction to Action by Tanmay Gupta
Modele multimodalne dla biomedycyny
TLDR: Pengtao Xie z UC San Diego postuluje głęboką integrację modalności w modelach biomedycznych zamiast płytkiej konkatenacji, z priorytetem dla interpretowalności i efektywności danych.
Xie adresuje specyficzny, ale krytyczny problem: w biomedycynie modele multimodalne są często fragmentaryczne, kruche lub trudne do interpretacji. Systemy biologiczne są z natury wieloskalowe - molekuły, komórki, tkanki, organy, pacjenci połączeni złożonymi mechanizmami obejmującymi sekwencje, struktury, obrazy i dane podłużne.
Kluczowy postulat to głęboka integracja multimodalna zamiast płytkiej konkatenacji. Foundation models powinny odzwierciedlać strukturę biologiczną, ucząc się wyrównanych reprezentacji zachowujących znaczenie biologiczne między modalnościami. To wymaga nowych celów pretreningu, lepszych indukcyjnych biasów i sposobów kodowania kontekstu biologicznego.
Drugi priorytet to interpretowalność. W biomedycynie same predykcje rzadko wystarczą - badacze i klinicyści muszą rozumieć dlaczego model podjął decyzję, na jakich dowodach się opiera, jak wyniki odnoszą się do znanej biologii. Xie postuluje metody wyjaśniania działające między modalnościami.
Trzeci priorytet to efektywność danych i adaptacyjność. Wiele domen biomedycznych cierpi na ograniczone dane labelowane, silne przesunięcia dystrybucji i niekompletną wiedzę. Kluczowe są parameter-efficient adaptation, continual learning i uncertainty-aware inference.
Dla architektów systemów medycznych to jasne wytyczne: multimodalność musi być głęboka (nie konkatenacja), interpretowalność jest obowiązkowa (nie "nice to have"), a adaptacyjność przy małych danych jest krytyczna.
Kluczowe wnioski:
- Płytka konkatenacja modalności nie wystarczy w biomedycynie
- Interpretowalność cross-modalna jest kluczowa dla adopcji klinicznej
- Efektywność danych i adaptacyjność są priorytetem
- Postęp mierzyć integracją w workflow'y, nie benchmarkami
Kompromisy:
- Głęboka integracja modalności daje lepsze wyniki, ale wymaga znacznie więcej danych wyrównanych między modalnościami
- Wysoka interpretowalność może ograniczać ekspresywność modelu
Link: The Batch - Multimodal Models for Biomedicine by Pengtao Xie
Chatboty budujące społeczność
TLDR: Sharon Zhou postuluje, że AI w 2026 powinno wyjść poza relacje 1:1 i zacząć łączyć ludzi ze sobą. ChatGPT powinien wejść do grupowych czatów jako pozytywna, jednocząca siła.
Sharon Zhou kończy numer wizją, która jest jednocześnie utopijną i intrygująco konkretną. Dzisiejszy internet jest spychany ku dwóm ekstremom: ciężka AI "slopifikacja" produkująca gorszy, głośniejszy internet, lub ciężka ludzka kuracja próbująca trzymać LLM-y z daleka.
Ale ta napięcie nie musi być antagonistyczne - może być integrujące. AI może być zaprojektowane do łączenia ludzi i wzmacniania ludzkich połączeń. Bot w czacie staje się pozytywną, jednoczącą siłą, nie neutralnym asystentem czy zwodniczym agentem.
Zhou maluje scenariusz: rozmawiasz z LLM-em o 3 w nocy o problemie relacyjnym, a LLM pyta, czy chcesz porozmawiać z kimś, kto czuje podobnie. LLM nie tylko robi intro - dołącza do czatu, rzuca żarty z memami, zadaje interesujące pytania. I nagle o 3:15 masz nowych znajomych, naprawiłeś bug i masz nową perspektywę na związek.
Ciekawostka to implikacja dla badań: aby to osiągnąć, potrzeba post-treningu na dłuższych kontekstach i innych środowiskach reinforcement learning do obsługi wieloosobowych kontekstów i celów.
Czy to realistyczne? Może nie za rok. Ale Zhou podnosi ważny punkt: AI optymalizowane do łączenia ludzi, nie do maksymalizacji engagement'u jednostki, mogłoby być win-win. A konwersacje z tego wynikające mogłyby być nowymi danymi potrzebnymi do podniesienia inteligencji AI.
Kluczowe wnioski:
- AI nie musi izolować - może łączyć
- Multi-human konteksty wymagają nowych podejść do treningu
- Ciekawość jest zaraźliwa i najlepiej działa w grupie
- Dane z jakościowych rozmów mogą podnieść inteligencję AI
Kompromisy:
- AI w grupowych kontekstach może wzmacniać społeczność, ale tworzy nowe ryzyka prywatności i manipulacji
- Optymalizacja pod łączenie ludzi wymaga rezygnacji z optymalizacji pod indywidualny engagement
Link: The Batch - Chatbots That Build Community by Sharon Zhou
Disclaimer: Powyższe podsumowania zostały wygenerowane na podstawie newslettera The Batch. Zawsze warto sięgnąć do oryginalnych źródeł po pełny kontekst i szczegóły.