Nadzieje AI na 2026: Test Turinga-AGI, Open Source i Agenci

Test Turinga-AGI: Nowy sposób mierzenia inteligencji maszyn

TLDR: Andrew Ng proponuje nowy test na AGI - Turing-AGI Test, który sprawdza czy AI potrafi wykonywać zadania pracownika zdalnego przez wiele dni, zamiast tylko udawać człowieka w czacie. Ma to na celu zdezinflowanie hype'u wokół AGI i ustawienie realistycznych oczekiwań.

Andrew Ng rozpoczyna rok 2026 od prowokacyjnego pytania: czy w końcu osiągniemy AGI? Zamiast jednak poddawać się marketingowej gorączce, proponuje konkretny, mierzalny test. Turing-AGI Test polega na tym, że testowany podmiot - człowiek lub komputer - otrzymuje dostęp do komputera z internetem, przeglądarką i Zoomem, a następnie musi przejść wielodniowe doświadczenie zawodowe: szkolenie, wykonywanie zadań i reagowanie na feedback. Dokładnie tak, jak zdalny pracownik bez kamery.

To genialne w swojej prostocie podejście. Oryginalny Test Turinga okazał się niewystarczający - konkurs Loebner Prize pokazał, że symulowanie ludzkich błędów typograficznych było ważniejsze od demonstrowania inteligencji. Ale dzisiejsze AI ma służyć do ekonomicznie użytecznej pracy, nie do oszukiwania sędziów.

Ng słusznie zauważa, że obecne benchmarki (GPQA, AIME, SWE-bench) mają fundamentalną wadę - są z góry określone, więc zespoły AI pośrednio dostrajają modele do zestawów testowych. W Turing-AGI Test sędzia może zaprojektować dowolne doświadczenie, nieujawnione wcześniej, co lepiej mierzy ogólność inteligencji.

Czego jednak Ng unika? Nie porusza kwestii, że taki test jest ekstremalnie drogi w przeprowadzeniu i subiektywny w ocenie. Kto będzie sędzią? Jak zapewnimy powtarzalność? Jak zdefiniujemy "wykonanie zadania na poziomie wykwalifikowanego człowieka"? To nie są trywialne problemy.

Dla architektów i zespołów kluczowy jest przekaz: przestańmy gonić za hipotetycznym AGI i skupmy się na konkretnych, mierzalnych zastosowaniach AI w workflow'ach. Jeśli wasza organizacja planuje projekty zakładając, że za rok-dwa AI będzie "inteligentne jak człowiek" - czas na reality check.

Kluczowe wnioski:

AGI stało się terminem marketingowym bez precyzyjnego znaczenia
Turing-AGI Test mierzy zdolność do pracy, nie do oszukiwania
Nierealistyczny hype może doprowadzić do kolejnej "zimy AI"
Firmy powinny planować projekty w oparciu o realne możliwości AI

Kompromisy:

Wyższy próg dla "AGI" oznacza lepszą kalibrację oczekiwań, ale może zniechęcić inwestorów szukających szybkich zwrotów
Test bez z góry określonego zestawu daje lepszą miarę ogólności, ale jest droższy i trudniejszy do standaryzacji

Link: The Batch - New Year Special

Open Source wygrywa: Przyszłość otwartej AI

TLDR: David Cox z IBM Research argumentuje, że prawdziwie otwarty rozwój AI jest kluczowy dla innowacji, bezpieczeństwa i unikania vendor lock-in. Przestrzega przed "faux-open" modelami od OpenAI i Meta, które nie ujawniają danych treningowych ani formuł.

David Cox rysuje fascynującą paralelę między dzisiejszą walką o otwartą AI a bitwą o open source w latach 90. Kiedy Linux, Apache i Eclipse stawiały czoła dominującym systemom własnościowym, kształtowało to internet jaki znamy. Teraz ta sama walka toczy się o przyszłość sztucznej inteligencji.

Cox nie owija w bawełnę: porównuje taktyki OpenAI i Meta do strategii Microsoftu z czasów, gdy firma rozdawała darmowe kopie Windows w rozwijających się krajach, żeby zdusić Linuxa. "Open" modele tych firm to tak naprawdę "faux-open" - nie ujawniają zbiorów treningowych, nie publikują formuł, nakładają limity na przychody. To projektowane, żeby zablokować konkurencję.

Szczególnie interesujący jest wątek geopolityczny. W Chinach istnieje prężny ekosystem open source AI, ale nakłada się na to brak zaufania między krajami. USA nie ufa modelom z Chin, Chiny nie ufają modelom z USA, Europa nie ufa nikomu. Prawdziwie otwarty rozwój rozwiązuje ten problem - każdy wie, na czym model był trenowany i jak.

IBM na Stanford Transparency Index zajmuje pierwsze miejsce z wynikiem 95%, o 23 punkty przed drugim miejscem. Cox kończy ironicznie: "Wiemy, że IBM ma reputację nudziarza. Ale nudne może być dobre. Nudne jest stabilne".

Dla architektów to jasny przekaz: przy wyborze AI stack'u myślcie o vendor lock-in. Model za API może stać się krytyczną infrastrukturą, której nie kontrolujecie. Otwarte modele dają nie tylko prawo do customizacji, ale też wiedzę o tym, jak zostały zbudowane.

Kluczowe wnioski:

"Open" w nazwie nie oznacza prawdziwej otwartości
Transparentność danych treningowych jest kluczowa dla zaufania
Vendor lock-in to realne ryzyko przy AI-as-a-service
Geopolityka wymusza większą transparentność

Kompromisy:

Pełna transparentność buduje zaufanie, ale może ułatwić replikację przez konkurencję
Otwarte modele eliminują vendor lock-in, ale wymagają większych kompetencji do wdrożenia

Link: The Batch - Open Source Wins by David Cox

AI dla odkryć naukowych: Od interpolacji do eksploracji

TLDR: Adji Bousso Dieng z Princeton argumentuje, że AI musi przejść od paradygmatu interpolacji (dopasowywania się do dominujących wzorców) do paradygmatu odkrywania rzeczy rzadkich i nieznanych. Kluczem jest traktowanie różnorodności jako głównego celu matematycznego.

To jeden z najbardziej głębokich esejów w tym numerze. Adji Bousso Dieng stawia fundamentalną tezę: przez ostatnią dekadę deep learning był mistrzem interpolacji - doskonale naśladuje rozkład danych treningowych. Świetne do chatbotów i asystentów kodowania. Ale nauka potrzebuje czegoś innego.

Problemem są "ogony rozkładu" - rzadkie przypadki. Nawet AlphaFold ma problemy z przewidywaniem struktury rzadkich protein. A wielkie wyzwania nauki - projektowanie nowych białek, odkrywanie nowych materiałów MOF do wychwytywania CO2 - nie da się sformułować jako problemy uczenia nadzorowanego. To problemy odkrywcze, gdzie szukamy rzeczy rzadkich.

Dieng proponuje radykalną zmianę: przestańmy maksymalizować dokładność i prawdopodobieństwa. Te cele z natury prowadzą modele do interpolacji i kolapsu do dominujących modów. Zamiast tego podnieśmy różnorodność do rangi pierwszorzędnego celu matematycznego.

W jej laboratorium Vertaix rozwinęli Vendi Score - metrykę różnorodności. W badaniach nad odkrywaniem materiałów optymalizacja Vendi Score pozwoliła znaleźć stabilne, energooszczędne MOF-y, które standardowe metody przeoczyły, bo nie potrafiły eksplorować przestrzeni bilionów materiałów.

Dla architektów systemów AI to ważna lekcja: jeśli wasze systemy mają wspierać innowacje, nie tylko automatyzację, musicie myśleć poza standardowymi metrykami. Czy wasz system nagradza odkrywanie nowych rozwiązań, czy tylko reprodukowanie znanych wzorców?

Kluczowe wnioski:

AI interpolacyjne świetnie naśladuje, ale nie odkrywa
Rzadkie przypadki są często najciekawsze naukowo
Różnorodność powinna być celem matematycznym, nie tylko metryką ewaluacyjną
Vendi Score może pomóc w eksploracji ogromnych przestrzeni poszukiwań

Kompromisy:

Optymalizacja różnorodności pozwala odkrywać nowe rozwiązania, ale kosztem dokładności na znanych przypadkach
Eksploracja ogonów rozkładu wymaga znacznie więcej zasobów obliczeniowych niż interpolacja

Link: The Batch - AI for Scientific Discovery by Adji Bousso Dieng

Edukacja, która współpracuje z AI, nie walczy z nim

TLDR: Juan M. Lavista Ferres z Microsoft argumentuje, że detektory AI w edukacji to iluzja - studenci zawsze znajdą sposób na ich obejście. Zamiast walczyć z AI, edukacja powinna projektować ocenianie dla świata, w którym AI istnieje.

To być może najbardziej kontrowersyjny esej w numerze. Ferres bezlitośnie rozprawia się z nadzieją, że detektory AI-generowanego tekstu uratują tradycyjny model edukacji. W laboratorium działają świetnie. W rzeczywistości - nie.

Strukturalny problem jest prosty: jeśli zbudujesz system wykrywający tekst AI, możesz użyć tego systemu do wytrenowania systemu, który go pokona. W momencie wdrożenia detektora, przedsiębiorcy zbudują produkty do jego łamania, a studenci nauczą się ich używać.

Ale największy problem to nie technologia - to zaufanie. Gdy nauczyciele polegają na wynikach detektorów, a studenci używają narzędzi do ich obchodzenia, relacja zamienia się w podejrzenie i osądzanie. Konfrontujesz studentów, nawigujesz apelacje, podejmujesz decyzje wysokiej stawki bez wiarygodnych dowodów. Co gorsza, ryzykujesz krzywdzenie niewłaściwych osób - szczególnie tych, dla których angielski nie jest pierwszym językiem.

Ferres proponuje pragmatyczne podejście: zakładajmy, że studenci będą używać AI, i projektujmy ocenianie, które w tej rzeczywistości nadal działa. Autentyczne demonstracje zrozumienia: egzaminy ustne, obrony, pisanie na żywo, prezentacje. Uczenie umiejętności AI: weryfikacja, cytowanie, świadomość biasu. Projektowanie dla AI, nie przeciwko niemu.

Dla architektów systemów edukacyjnych i korporacyjnych szkoleń to jasny przekaz: tradycyjne metody weryfikacji autorstwa są martwe. Czas na nowe podejścia.

Kluczowe wnioski:

Detektory AI to wyścig zbrojeń, który edukacja przegra
Problem nie jest techniczny, lecz relacyjny (zaufanie)
Zakładaj użycie AI i projektuj ocenianie odpowiednio
Egzaminy ustne i demonstracje na żywo są odporne na AI

Kompromisy:

Przejście na ocenianie "live" buduje prawdziwe zaufanie, ale jest znacznie droższe i czasochłonne
Akceptacja AI w edukacji przygotowuje do realnego świata, ale może osłabić fundamentalne umiejętności pisania

Link: The Batch - Education That Works With AI by Juan M. Lavista Ferres

Od predykcji do działania: AI w 2026

TLDR: Tanmay Gupta z Allen Institute argumentuje, że modele predykcyjne to zadania proxy - prawdziwa wartość ekonomiczna wymaga systemów, które działają w złożonych środowiskach przez dłuższy czas. Czas przejść od generowania do osiągania celów.

Gupta stawia tezę, która powinna być oczywista, ale często umyka: modele, które przewidują, to nie to samo co systemy, które działają. A potrzebujemy tych drugich.

Przez ostatnią dekadę staliśmy się mistrzami pasywnej predykcji - bounding boxy, transkrypcje, generowanie tekstu i obrazów. Imponujące osiągnięcia, ale to zadania proxy: zakładamy, że reprezentują ekonomiczną użyteczność, ale to błąd. Prawdziwe zadania nie kończą się na pojedynczej predykcji. Wymagają sekwencji działań w dynamicznych środowiskach, gdzie każde działanie zmienia stan i wpływa na kolejne.

Gupta używa świetnego przykładu: kodowanie. Modele kiedyś autouzupełniały linie, dziś agenci kodujący biorą specyfikację wysokiego poziomu, przeszukują codebase, uruchamiają testy i zwracają działające rozwiązanie przy minimalnej interwencji człowieka. Tę ewolucję trzeba przenieść do innych domen.

Przejście do zadań zorientowanych na cele ma dwie korzyści. Po pierwsze, odsłania ograniczenia obecnych modeli niewidoczne w zadaniach krótkohoryzontalnych - potrzeba trwałej pamięci, skupienia na celu przez dłuższy czas, reagowania na feedback w czasie rzeczywistym, radzenia sobie z niepewnością. Po drugie, wyrównuje badania AI z rzeczywistą użytecznością końcową.

Gupta kończy prowokacyjnie: przez lata NLP traktowało semantic parsing jako kluczowy komponent rozumienia języka. Dzisiejsze LLM-y rozumieją język bez explicit semantic parsing. Z perspektywy czasu, te godziny badawcze mogły być lepiej spożytkowane na rozwiązywanie końcowego zadania.

Kluczowe wnioski:

Predykcja ≠ działanie, a wartość ekonomiczna wymaga działania
Zadania proxy mogą prowadzić na manowce
Agenci kodujący to wzorzec dla innych domen
Długohoryzontalowe zadania odsłaniają prawdziwe ograniczenia modeli

Kompromisy:

Fokus na zadaniach końcowych przyspiesza wartość biznesową, ale może prowadzić do pominięcia fundamentalnych badań
Systemy agentowe są potężniejsze, ale znacznie trudniejsze do debugowania i testowania

Link: The Batch - From Prediction to Action by Tanmay Gupta

Modele multimodalne dla biomedycyny

TLDR: Pengtao Xie z UC San Diego postuluje głęboką integrację modalności w modelach biomedycznych zamiast płytkiej konkatenacji, z priorytetem dla interpretowalności i efektywności danych.

Xie adresuje specyficzny, ale krytyczny problem: w biomedycynie modele multimodalne są często fragmentaryczne, kruche lub trudne do interpretacji. Systemy biologiczne są z natury wieloskalowe - molekuły, komórki, tkanki, organy, pacjenci połączeni złożonymi mechanizmami obejmującymi sekwencje, struktury, obrazy i dane podłużne.

Kluczowy postulat to głęboka integracja multimodalna zamiast płytkiej konkatenacji. Foundation models powinny odzwierciedlać strukturę biologiczną, ucząc się wyrównanych reprezentacji zachowujących znaczenie biologiczne między modalnościami. To wymaga nowych celów pretreningu, lepszych indukcyjnych biasów i sposobów kodowania kontekstu biologicznego.

Drugi priorytet to interpretowalność. W biomedycynie same predykcje rzadko wystarczą - badacze i klinicyści muszą rozumieć dlaczego model podjął decyzję, na jakich dowodach się opiera, jak wyniki odnoszą się do znanej biologii. Xie postuluje metody wyjaśniania działające między modalnościami.

Trzeci priorytet to efektywność danych i adaptacyjność. Wiele domen biomedycznych cierpi na ograniczone dane labelowane, silne przesunięcia dystrybucji i niekompletną wiedzę. Kluczowe są parameter-efficient adaptation, continual learning i uncertainty-aware inference.

Dla architektów systemów medycznych to jasne wytyczne: multimodalność musi być głęboka (nie konkatenacja), interpretowalność jest obowiązkowa (nie "nice to have"), a adaptacyjność przy małych danych jest krytyczna.

Kluczowe wnioski:

Płytka konkatenacja modalności nie wystarczy w biomedycynie
Interpretowalność cross-modalna jest kluczowa dla adopcji klinicznej
Efektywność danych i adaptacyjność są priorytetem
Postęp mierzyć integracją w workflow'y, nie benchmarkami

Kompromisy:

Głęboka integracja modalności daje lepsze wyniki, ale wymaga znacznie więcej danych wyrównanych między modalnościami
Wysoka interpretowalność może ograniczać ekspresywność modelu

Link: The Batch - Multimodal Models for Biomedicine by Pengtao Xie

Chatboty budujące społeczność

TLDR: Sharon Zhou postuluje, że AI w 2026 powinno wyjść poza relacje 1:1 i zacząć łączyć ludzi ze sobą. ChatGPT powinien wejść do grupowych czatów jako pozytywna, jednocząca siła.

Sharon Zhou kończy numer wizją, która jest jednocześnie utopijną i intrygująco konkretną. Dzisiejszy internet jest spychany ku dwóm ekstremom: ciężka AI "slopifikacja" produkująca gorszy, głośniejszy internet, lub ciężka ludzka kuracja próbująca trzymać LLM-y z daleka.

Ale ta napięcie nie musi być antagonistyczne - może być integrujące. AI może być zaprojektowane do łączenia ludzi i wzmacniania ludzkich połączeń. Bot w czacie staje się pozytywną, jednoczącą siłą, nie neutralnym asystentem czy zwodniczym agentem.

Zhou maluje scenariusz: rozmawiasz z LLM-em o 3 w nocy o problemie relacyjnym, a LLM pyta, czy chcesz porozmawiać z kimś, kto czuje podobnie. LLM nie tylko robi intro - dołącza do czatu, rzuca żarty z memami, zadaje interesujące pytania. I nagle o 3:15 masz nowych znajomych, naprawiłeś bug i masz nową perspektywę na związek.

Ciekawostka to implikacja dla badań: aby to osiągnąć, potrzeba post-treningu na dłuższych kontekstach i innych środowiskach reinforcement learning do obsługi wieloosobowych kontekstów i celów.

Czy to realistyczne? Może nie za rok. Ale Zhou podnosi ważny punkt: AI optymalizowane do łączenia ludzi, nie do maksymalizacji engagement'u jednostki, mogłoby być win-win. A konwersacje z tego wynikające mogłyby być nowymi danymi potrzebnymi do podniesienia inteligencji AI.

Kluczowe wnioski:

AI nie musi izolować - może łączyć
Multi-human konteksty wymagają nowych podejść do treningu
Ciekawość jest zaraźliwa i najlepiej działa w grupie
Dane z jakościowych rozmów mogą podnieść inteligencję AI

Kompromisy:

AI w grupowych kontekstach może wzmacniać społeczność, ale tworzy nowe ryzyka prywatności i manipulacji
Optymalizacja pod łączenie ludzi wymaga rezygnacji z optymalizacji pod indywidualny engagement

Link: The Batch - Chatbots That Build Community by Sharon Zhou

Disclaimer: Powyższe podsumowania zostały wygenerowane na podstawie newslettera The Batch. Zawsze warto sięgnąć do oryginalnych źródeł po pełny kontekst i szczegóły.

Test Turinga-AGI: Nowy sposób mierzenia inteligencji maszyn

Kluczowe wnioski:

AGI stało się terminem marketingowym bez precyzyjnego znaczenia
Turing-AGI Test mierzy zdolność do pracy, nie do oszukiwania
Nierealistyczny hype może doprowadzić do kolejnej "zimy AI"
Firmy powinny planować projekty w oparciu o realne możliwości AI

Kompromisy:

Wyższy próg dla "AGI" oznacza lepszą kalibrację oczekiwań, ale może zniechęcić inwestorów szukających szybkich zwrotów
Test bez z góry określonego zestawu daje lepszą miarę ogólności, ale jest droższy i trudniejszy do standaryzacji

Link: The Batch - New Year Special

Open Source wygrywa: Przyszłość otwartej AI

Kluczowe wnioski:

"Open" w nazwie nie oznacza prawdziwej otwartości
Transparentność danych treningowych jest kluczowa dla zaufania
Vendor lock-in to realne ryzyko przy AI-as-a-service
Geopolityka wymusza większą transparentność

Kompromisy:

Pełna transparentność buduje zaufanie, ale może ułatwić replikację przez konkurencję
Otwarte modele eliminują vendor lock-in, ale wymagają większych kompetencji do wdrożenia

Link: The Batch - Open Source Wins by David Cox

AI dla odkryć naukowych: Od interpolacji do eksploracji

Kluczowe wnioski:

AI interpolacyjne świetnie naśladuje, ale nie odkrywa
Rzadkie przypadki są często najciekawsze naukowo
Różnorodność powinna być celem matematycznym, nie tylko metryką ewaluacyjną
Vendi Score może pomóc w eksploracji ogromnych przestrzeni poszukiwań

Kompromisy:

Optymalizacja różnorodności pozwala odkrywać nowe rozwiązania, ale kosztem dokładności na znanych przypadkach
Eksploracja ogonów rozkładu wymaga znacznie więcej zasobów obliczeniowych niż interpolacja

Link: The Batch - AI for Scientific Discovery by Adji Bousso Dieng

Edukacja, która współpracuje z AI, nie walczy z nim

Dla architektów systemów edukacyjnych i korporacyjnych szkoleń to jasny przekaz: tradycyjne metody weryfikacji autorstwa są martwe. Czas na nowe podejścia.

Kluczowe wnioski:

Detektory AI to wyścig zbrojeń, który edukacja przegra
Problem nie jest techniczny, lecz relacyjny (zaufanie)
Zakładaj użycie AI i projektuj ocenianie odpowiednio
Egzaminy ustne i demonstracje na żywo są odporne na AI

Kompromisy:

Przejście na ocenianie "live" buduje prawdziwe zaufanie, ale jest znacznie droższe i czasochłonne
Akceptacja AI w edukacji przygotowuje do realnego świata, ale może osłabić fundamentalne umiejętności pisania

Link: The Batch - Education That Works With AI by Juan M. Lavista Ferres

Od predykcji do działania: AI w 2026

Gupta stawia tezę, która powinna być oczywista, ale często umyka: modele, które przewidują, to nie to samo co systemy, które działają. A potrzebujemy tych drugich.

Kluczowe wnioski:

Predykcja ≠ działanie, a wartość ekonomiczna wymaga działania
Zadania proxy mogą prowadzić na manowce
Agenci kodujący to wzorzec dla innych domen
Długohoryzontalowe zadania odsłaniają prawdziwe ograniczenia modeli

Kompromisy:

Fokus na zadaniach końcowych przyspiesza wartość biznesową, ale może prowadzić do pominięcia fundamentalnych badań
Systemy agentowe są potężniejsze, ale znacznie trudniejsze do debugowania i testowania

Link: The Batch - From Prediction to Action by Tanmay Gupta

Modele multimodalne dla biomedycyny

Kluczowe wnioski:

Płytka konkatenacja modalności nie wystarczy w biomedycynie
Interpretowalność cross-modalna jest kluczowa dla adopcji klinicznej
Efektywność danych i adaptacyjność są priorytetem
Postęp mierzyć integracją w workflow'y, nie benchmarkami

Kompromisy:

Głęboka integracja modalności daje lepsze wyniki, ale wymaga znacznie więcej danych wyrównanych między modalnościami
Wysoka interpretowalność może ograniczać ekspresywność modelu

Link: The Batch - Multimodal Models for Biomedicine by Pengtao Xie

Chatboty budujące społeczność

TLDR: Sharon Zhou postuluje, że AI w 2026 powinno wyjść poza relacje 1:1 i zacząć łączyć ludzi ze sobą. ChatGPT powinien wejść do grupowych czatów jako pozytywna, jednocząca siła.

Kluczowe wnioski:

AI nie musi izolować - może łączyć
Multi-human konteksty wymagają nowych podejść do treningu
Ciekawość jest zaraźliwa i najlepiej działa w grupie
Dane z jakościowych rozmów mogą podnieść inteligencję AI

Kompromisy:

AI w grupowych kontekstach może wzmacniać społeczność, ale tworzy nowe ryzyka prywatności i manipulacji
Optymalizacja pod łączenie ludzi wymaga rezygnacji z optymalizacji pod indywidualny engagement

Link: The Batch - Chatbots That Build Community by Sharon Zhou

Disclaimer: Powyższe podsumowania zostały wygenerowane na podstawie newslettera The Batch. Zawsze warto sięgnąć do oryginalnych źródeł po pełny kontekst i szczegóły.