Published on 03.01.2026
TLDR: Andrew Ng proponuje nowy test na AGI - Turing-AGI Test, który sprawdza czy AI potrafi wykonywać zadania pracownika zdalnego przez wiele dni, zamiast tylko udawać człowieka w czacie. Ma to na celu zdezinflowanie hype'u wokół AGI i ustawienie realistycznych oczekiwań.
Andrew Ng rozpoczyna rok 2026 od prowokacyjnego pytania: czy w końcu osiągniemy AGI? Zamiast jednak poddawać się marketingowej gorączce, proponuje konkretny, mierzalny test. Turing-AGI Test polega na tym, że testowany podmiot - człowiek lub komputer - otrzymuje dostęp do komputera z internetem, przeglądarką i Zoomem, a następnie musi przejść wielodniowe doświadczenie zawodowe: szkolenie, wykonywanie zadań i reagowanie na feedback. Dokładnie tak, jak zdalny pracownik bez kamery.
To genialne w swojej prostocie podejście. Oryginalny Test Turinga okazał się niewystarczający - konkurs Loebner Prize pokazał, że symulowanie ludzkich błędów typograficznych było ważniejsze od demonstrowania inteligencji. Ale dzisiejsze AI ma służyć do ekonomicznie użytecznej pracy, nie do oszukiwania sędziów.
Ng słusznie zauważa, że obecne benchmarki (GPQA, AIME, SWE-bench) mają fundamentalną wadę - są z góry określone, więc zespoły AI pośrednio dostrajają modele do zestawów testowych. W Turing-AGI Test sędzia może zaprojektować dowolne doświadczenie, nieujawnione wcześniej, co lepiej mierzy ogólność inteligencji.
Czego jednak Ng unika? Nie porusza kwestii, że taki test jest ekstremalnie drogi w przeprowadzeniu i subiektywny w ocenie. Kto będzie sędzią? Jak zapewnimy powtarzalność? Jak zdefiniujemy "wykonanie zadania na poziomie wykwalifikowanego człowieka"? To nie są trywialne problemy.
Dla architektów i zespołów kluczowy jest przekaz: przestańmy gonić za hipotetycznym AGI i skupmy się na konkretnych, mierzalnych zastosowaniach AI w workflow'ach. Jeśli wasza organizacja planuje projekty zakładając, że za rok-dwa AI będzie "inteligentne jak człowiek" - czas na reality check.
Kluczowe wnioski:
Kompromisy:
Link: The Batch - New Year Special
TLDR: David Cox z IBM Research argumentuje, że prawdziwie otwarty rozwój AI jest kluczowy dla innowacji, bezpieczeństwa i unikania vendor lock-in. Przestrzega przed "faux-open" modelami od OpenAI i Meta, które nie ujawniają danych treningowych ani formuł.
David Cox rysuje fascynującą paralelę między dzisiejszą walką o otwartą AI a bitwą o open source w latach 90. Kiedy Linux, Apache i Eclipse stawiały czoła dominującym systemom własnościowym, kształtowało to internet jaki znamy. Teraz ta sama walka toczy się o przyszłość sztucznej inteligencji.
Cox nie owija w bawełnę: porównuje taktyki OpenAI i Meta do strategii Microsoftu z czasów, gdy firma rozdawała darmowe kopie Windows w rozwijających się krajach, żeby zdusić Linuxa. "Open" modele tych firm to tak naprawdę "faux-open" - nie ujawniają zbiorów treningowych, nie publikują formuł, nakładają limity na przychody. To projektowane, żeby zablokować konkurencję.
Szczególnie interesujący jest wątek geopolityczny. W Chinach istnieje prężny ekosystem open source AI, ale nakłada się na to brak zaufania między krajami. USA nie ufa modelom z Chin, Chiny nie ufają modelom z USA, Europa nie ufa nikomu. Prawdziwie otwarty rozwój rozwiązuje ten problem - każdy wie, na czym model był trenowany i jak.
IBM na Stanford Transparency Index zajmuje pierwsze miejsce z wynikiem 95%, o 23 punkty przed drugim miejscem. Cox kończy ironicznie: "Wiemy, że IBM ma reputację nudziarza. Ale nudne może być dobre. Nudne jest stabilne".
Dla architektów to jasny przekaz: przy wyborze AI stack'u myślcie o vendor lock-in. Model za API może stać się krytyczną infrastrukturą, której nie kontrolujecie. Otwarte modele dają nie tylko prawo do customizacji, ale też wiedzę o tym, jak zostały zbudowane.
Kluczowe wnioski:
Kompromisy:
Link: The Batch - Open Source Wins by David Cox
TLDR: Adji Bousso Dieng z Princeton argumentuje, że AI musi przejść od paradygmatu interpolacji (dopasowywania się do dominujących wzorców) do paradygmatu odkrywania rzeczy rzadkich i nieznanych. Kluczem jest traktowanie różnorodności jako głównego celu matematycznego.
To jeden z najbardziej głębokich esejów w tym numerze. Adji Bousso Dieng stawia fundamentalną tezę: przez ostatnią dekadę deep learning był mistrzem interpolacji - doskonale naśladuje rozkład danych treningowych. Świetne do chatbotów i asystentów kodowania. Ale nauka potrzebuje czegoś innego.
Problemem są "ogony rozkładu" - rzadkie przypadki. Nawet AlphaFold ma problemy z przewidywaniem struktury rzadkich protein. A wielkie wyzwania nauki - projektowanie nowych białek, odkrywanie nowych materiałów MOF do wychwytywania CO2 - nie da się sformułować jako problemy uczenia nadzorowanego. To problemy odkrywcze, gdzie szukamy rzeczy rzadkich.
Dieng proponuje radykalną zmianę: przestańmy maksymalizować dokładność i prawdopodobieństwa. Te cele z natury prowadzą modele do interpolacji i kolapsu do dominujących modów. Zamiast tego podnieśmy różnorodność do rangi pierwszorzędnego celu matematycznego.
W jej laboratorium Vertaix rozwinęli Vendi Score - metrykę różnorodności. W badaniach nad odkrywaniem materiałów optymalizacja Vendi Score pozwoliła znaleźć stabilne, energooszczędne MOF-y, które standardowe metody przeoczyły, bo nie potrafiły eksplorować przestrzeni bilionów materiałów.
Dla architektów systemów AI to ważna lekcja: jeśli wasze systemy mają wspierać innowacje, nie tylko automatyzację, musicie myśleć poza standardowymi metrykami. Czy wasz system nagradza odkrywanie nowych rozwiązań, czy tylko reprodukowanie znanych wzorców?
Kluczowe wnioski:
Kompromisy:
Link: The Batch - AI for Scientific Discovery by Adji Bousso Dieng
TLDR: Juan M. Lavista Ferres z Microsoft argumentuje, że detektory AI w edukacji to iluzja - studenci zawsze znajdą sposób na ich obejście. Zamiast walczyć z AI, edukacja powinna projektować ocenianie dla świata, w którym AI istnieje.
To być może najbardziej kontrowersyjny esej w numerze. Ferres bezlitośnie rozprawia się z nadzieją, że detektory AI-generowanego tekstu uratują tradycyjny model edukacji. W laboratorium działają świetnie. W rzeczywistości - nie.
Strukturalny problem jest prosty: jeśli zbudujesz system wykrywający tekst AI, możesz użyć tego systemu do wytrenowania systemu, który go pokona. W momencie wdrożenia detektora, przedsiębiorcy zbudują produkty do jego łamania, a studenci nauczą się ich używać.
Ale największy problem to nie technologia - to zaufanie. Gdy nauczyciele polegają na wynikach detektorów, a studenci używają narzędzi do ich obchodzenia, relacja zamienia się w podejrzenie i osądzanie. Konfrontujesz studentów, nawigujesz apelacje, podejmujesz decyzje wysokiej stawki bez wiarygodnych dowodów. Co gorsza, ryzykujesz krzywdzenie niewłaściwych osób - szczególnie tych, dla których angielski nie jest pierwszym językiem.
Ferres proponuje pragmatyczne podejście: zakładajmy, że studenci będą używać AI, i projektujmy ocenianie, które w tej rzeczywistości nadal działa. Autentyczne demonstracje zrozumienia: egzaminy ustne, obrony, pisanie na żywo, prezentacje. Uczenie umiejętności AI: weryfikacja, cytowanie, świadomość biasu. Projektowanie dla AI, nie przeciwko niemu.
Dla architektów systemów edukacyjnych i korporacyjnych szkoleń to jasny przekaz: tradycyjne metody weryfikacji autorstwa są martwe. Czas na nowe podejścia.
Kluczowe wnioski:
Kompromisy:
Link: The Batch - Education That Works With AI by Juan M. Lavista Ferres
TLDR: Tanmay Gupta z Allen Institute argumentuje, że modele predykcyjne to zadania proxy - prawdziwa wartość ekonomiczna wymaga systemów, które działają w złożonych środowiskach przez dłuższy czas. Czas przejść od generowania do osiągania celów.
Gupta stawia tezę, która powinna być oczywista, ale często umyka: modele, które przewidują, to nie to samo co systemy, które działają. A potrzebujemy tych drugich.
Przez ostatnią dekadę staliśmy się mistrzami pasywnej predykcji - bounding boxy, transkrypcje, generowanie tekstu i obrazów. Imponujące osiągnięcia, ale to zadania proxy: zakładamy, że reprezentują ekonomiczną użyteczność, ale to błąd. Prawdziwe zadania nie kończą się na pojedynczej predykcji. Wymagają sekwencji działań w dynamicznych środowiskach, gdzie każde działanie zmienia stan i wpływa na kolejne.
Gupta używa świetnego przykładu: kodowanie. Modele kiedyś autouzupełniały linie, dziś agenci kodujący biorą specyfikację wysokiego poziomu, przeszukują codebase, uruchamiają testy i zwracają działające rozwiązanie przy minimalnej interwencji człowieka. Tę ewolucję trzeba przenieść do innych domen.
Przejście do zadań zorientowanych na cele ma dwie korzyści. Po pierwsze, odsłania ograniczenia obecnych modeli niewidoczne w zadaniach krótkohoryzontalnych - potrzeba trwałej pamięci, skupienia na celu przez dłuższy czas, reagowania na feedback w czasie rzeczywistym, radzenia sobie z niepewnością. Po drugie, wyrównuje badania AI z rzeczywistą użytecznością końcową.
Gupta kończy prowokacyjnie: przez lata NLP traktowało semantic parsing jako kluczowy komponent rozumienia języka. Dzisiejsze LLM-y rozumieją język bez explicit semantic parsing. Z perspektywy czasu, te godziny badawcze mogły być lepiej spożytkowane na rozwiązywanie końcowego zadania.
Kluczowe wnioski:
Kompromisy:
Link: The Batch - From Prediction to Action by Tanmay Gupta
TLDR: Pengtao Xie z UC San Diego postuluje głęboką integrację modalności w modelach biomedycznych zamiast płytkiej konkatenacji, z priorytetem dla interpretowalności i efektywności danych.
Xie adresuje specyficzny, ale krytyczny problem: w biomedycynie modele multimodalne są często fragmentaryczne, kruche lub trudne do interpretacji. Systemy biologiczne są z natury wieloskalowe - molekuły, komórki, tkanki, organy, pacjenci połączeni złożonymi mechanizmami obejmującymi sekwencje, struktury, obrazy i dane podłużne.
Kluczowy postulat to głęboka integracja multimodalna zamiast płytkiej konkatenacji. Foundation models powinny odzwierciedlać strukturę biologiczną, ucząc się wyrównanych reprezentacji zachowujących znaczenie biologiczne między modalnościami. To wymaga nowych celów pretreningu, lepszych indukcyjnych biasów i sposobów kodowania kontekstu biologicznego.
Drugi priorytet to interpretowalność. W biomedycynie same predykcje rzadko wystarczą - badacze i klinicyści muszą rozumieć dlaczego model podjął decyzję, na jakich dowodach się opiera, jak wyniki odnoszą się do znanej biologii. Xie postuluje metody wyjaśniania działające między modalnościami.
Trzeci priorytet to efektywność danych i adaptacyjność. Wiele domen biomedycznych cierpi na ograniczone dane labelowane, silne przesunięcia dystrybucji i niekompletną wiedzę. Kluczowe są parameter-efficient adaptation, continual learning i uncertainty-aware inference.
Dla architektów systemów medycznych to jasne wytyczne: multimodalność musi być głęboka (nie konkatenacja), interpretowalność jest obowiązkowa (nie "nice to have"), a adaptacyjność przy małych danych jest krytyczna.
Kluczowe wnioski:
Kompromisy:
Link: The Batch - Multimodal Models for Biomedicine by Pengtao Xie
TLDR: Sharon Zhou postuluje, że AI w 2026 powinno wyjść poza relacje 1:1 i zacząć łączyć ludzi ze sobą. ChatGPT powinien wejść do grupowych czatów jako pozytywna, jednocząca siła.
Sharon Zhou kończy numer wizją, która jest jednocześnie utopijną i intrygująco konkretną. Dzisiejszy internet jest spychany ku dwóm ekstremom: ciężka AI "slopifikacja" produkująca gorszy, głośniejszy internet, lub ciężka ludzka kuracja próbująca trzymać LLM-y z daleka.
Ale ta napięcie nie musi być antagonistyczne - może być integrujące. AI może być zaprojektowane do łączenia ludzi i wzmacniania ludzkich połączeń. Bot w czacie staje się pozytywną, jednoczącą siłą, nie neutralnym asystentem czy zwodniczym agentem.
Zhou maluje scenariusz: rozmawiasz z LLM-em o 3 w nocy o problemie relacyjnym, a LLM pyta, czy chcesz porozmawiać z kimś, kto czuje podobnie. LLM nie tylko robi intro - dołącza do czatu, rzuca żarty z memami, zadaje interesujące pytania. I nagle o 3:15 masz nowych znajomych, naprawiłeś bug i masz nową perspektywę na związek.
Ciekawostka to implikacja dla badań: aby to osiągnąć, potrzeba post-treningu na dłuższych kontekstach i innych środowiskach reinforcement learning do obsługi wieloosobowych kontekstów i celów.
Czy to realistyczne? Może nie za rok. Ale Zhou podnosi ważny punkt: AI optymalizowane do łączenia ludzi, nie do maksymalizacji engagement'u jednostki, mogłoby być win-win. A konwersacje z tego wynikające mogłyby być nowymi danymi potrzebnymi do podniesienia inteligencji AI.
Kluczowe wnioski:
Kompromisy:
Link: The Batch - Chatbots That Build Community by Sharon Zhou
Disclaimer: Powyższe podsumowania zostały wygenerowane na podstawie newslettera The Batch. Zawsze warto sięgnąć do oryginalnych źródeł po pełny kontekst i szczegóły.