00:00:00Alles klar.
00:00:02Was ist momentan das beste KI-Modell?
00:00:04Claude, GPT, Gemini.
00:00:07Und ehrlich gesagt, ich halte das für die falsche Frage.
00:00:11Wirklich, die völlig falsche Frage.
00:00:14Kurz zu mir: Ich bin Daniel.
00:00:16Ich bin seit über acht Jahren tief in der iOS-Entwicklung.
00:00:20Angefangen habe ich als Freelancer, habe UIs entworfen,
00:00:24bin von Kunde zu Kunde gesprungen,
00:00:25habe die Ideen anderer Leute umgesetzt,
00:00:27während ich versucht habe, meine eigenen zu finden.
00:00:28Nach der WWDC 2025 bin ich dann voll eingestiegen, solo.
00:00:33Keine Kunden mehr, kein Sicherheitsnetz.
00:00:36Seitdem habe ich über 15 eigene Apps entwickelt,
00:00:39alle mit SwiftUI, alle öffentlich aufgebaut.
00:00:41Und momentan fließt wirklich jede Unze Energie,
00:00:44die ich habe, in dieses Solo-Studio,
00:00:46um daraus etwas zu machen, das Bestand hat.
00:00:49Keine schnellen MVPs oder KI-generierter Müll,
00:00:52sondern echte Apps, die skalierbar sind.
00:00:55Und ja, dieser ganze Prozess,
00:00:57der gesamte chaotische Weg, findet auf CraftersLab statt.
00:01:00Es ist auf crafterslab.dev zu finden,
00:01:01und es ist kein Friedhof für Tutorials oder eine KI-Klonfabrik.
00:01:06Es ist wirklich meine Operationsbasis,
00:01:08gebaut für Solo-Entwickler, die KI wie einen echten Teamkollegen nutzen.
00:01:12Nicht wie einen Verkaufsautomaten, an dem man rüttelt,
00:01:14wenn man feststeckt, und auf das Beste hofft.
00:01:16Wenn dir das Handwerk wichtig ist,
00:01:18wenn du es ernst meinst mit dem nächsten Level
00:01:20und Dinge bauen willst, die wirklich bleiben,
00:01:23dann würdest du dich dort wohlfühlen.
00:01:24Und hey, falls du noch auf Patreon bist,
00:01:26vielen Dank dafür, aber ein kleiner Hinweis:
00:01:29Alles ist umgezogen auf crafterslab.dev.
00:01:32Dort ist jetzt die ganze Truppe.
00:01:33Komm und bau mit uns.
00:01:35Hier ist also das, was mich zum Nachdenken gebracht hat.
00:01:38Vor kurzem kam eine Studie heraus.
00:01:41Forscher haben diesen Benchmark namens "Epic's Agent" veröffentlicht.
00:01:45Und was ihn von all den anderen Benchmarks unterscheidet,
00:01:49über die sich die Leute online streiten,
00:01:51ist, dass er Agenten an echter professioneller Arbeit testet,
00:01:55nicht an Programmierrätseln oder Multiple-Choice-Fragen.
00:01:58Wir sprechen hier von tatsächlichen Aufgaben,
00:02:03die Berater, Anwälte und Analysten täglich erledigen.
00:02:05Jede Aufgabe dauert für einen Menschen etwa ein bis zwei Stunden.
00:02:08Sie haben also jedes große Spitzenmodell durchgejagt.
00:02:11Das beste Modell hat diese Aufgaben
00:02:13in etwa 24 % der Fälle gelöst – also eine von vier.
00:02:17Nach acht Versuchen mit demselben Modell
00:02:20stieg die Quote nur auf etwa 40 %.
00:02:23Man muss bedenken: Das sind dieselben Modelle,
00:02:26die bei den Benchmarks, über die alle ausrasten,
00:02:29Werte von über 90 % erzielen.
00:02:32Entweder stimmen also diese Benchmarks nicht,
00:02:33oder wir messen das Falsche.
00:02:36Ich glaube, es ist das Zweite.
00:02:37Aber okay, jetzt wird es für uns interessant.
00:02:41Die Forscher haben untersucht, warum die Agenten gescheitert sind.
00:02:46Und die Antwort war nicht, dass die Modelle zu dumm sind.
00:02:49Sie hatten das nötige Wissen.
00:02:51Sie konnten die Probleme problemlos durchdenken.
00:02:54Das Scheitern lag fast ausschließlich
00:02:56an der Ausführung und Orchestrierung.
00:03:00Die Agenten haben nach zu vielen Schritten den Faden verloren.
00:03:02Sie kehrten zu Ansätzen zurück, die bereits gescheitert waren.
00:03:05Sie haben einfach vergessen, was sie eigentlich
00:03:09von Anfang an tun sollten.
00:03:11Und wenn du als Solo-Dev täglich Claude Code
00:03:14oder Cursor benutzt, dann kennst du das.
00:03:18Du hast zugesehen, wie der Agent in eine Spirale gerät,
00:03:21dasselbe kaputte Ding dreimal versucht
00:03:23und den Kontext von vor 20 Schritten völlig vergisst.
00:03:26Und du denkst dir:
00:03:28Vielleicht sollte ich zu Opus wechseln.
00:03:30Vielleicht brauche ich einen anderen Anbieter,
00:03:32aber die Daten sagen: Das ist es nicht.
00:03:34Das Modell ist nicht der Flaschenhals.
00:03:36Es ist alles, was drumherum gebaut wurde.
00:03:38Dafür gibt es ein Wort.
00:03:40Und ich glaube, es wird das Jahr 2026 so prägen,
00:03:43wie die Agenten das Jahr 2025 geprägt haben.
00:03:46Das Wort ist "Harness" (Rahmenstruktur).
00:03:47Ein Agent-Harness umfasst die gesamte Infrastruktur
00:03:50um das Modell: Was es sehen kann,
00:03:52auf welche Tools es Zugriff hat,
00:03:54wie es reagiert, wenn etwas schiefläuft,
00:03:56und wie es den Überblick über eine lange Sitzung behält.
00:03:59OpenAI hat buchstäblich einen Blogpost veröffentlicht
00:04:02mit dem Titel "Harness Engineering".
00:04:04Anthropic hat einen Leitfaden herausgebracht,
00:04:07wie man effektive Harnesses für ausdauernde Agenten baut.
00:04:09Manus, die KI-Firma, die Meta gerade gekauft hat,
00:04:13hat ihre Lektionen zum Context-Engineering veröffentlicht,
00:04:16nachdem sie ihr gesamtes Agent-Framework
00:04:19fünfmal in sechs Monaten neu aufgebaut haben. Fünfmal.
00:04:22Und sie sagen alle genau dasselbe.
00:04:24Die eigentliche Ingenieursarbeit steckt im Harness,
00:04:27nicht im Modell.
00:04:28Okay, und das ist der Teil, der mich ehrlich überrascht hat,
00:04:32weil er komplett dem widerspricht,
00:04:34wie die meisten von uns über den Bau dieser Tools denken.
00:04:38Es gibt da diese Geschichte von Vercel.
00:04:41Sie hatten einen Text-to-SQL-Agenten.
00:04:43Man stellt eine Frage, er schreibt eine SQL-Abfrage.
00:04:46Sie bauten ihn so, wie die meisten Agenten bauen:
00:04:49Sie gaben ihm einen Haufen spezialisierter Tools,
00:04:51eines zum Verstehen des Datenbankschemas,
00:04:54eines zum Schreiben von Abfragen, eines zum Validieren.
00:04:58Die ganze Fehlerbehandlung war drumherum gewickelt,
00:05:01und es funktionierte in etwa 80 % der Fälle.
00:05:04Dann versuchten sie etwas Radikales.
00:05:06Sie entfernten 80 % der Tools, rissen sie einfach raus.
00:05:11Sie gaben dem Agenten Basics: Bash-Befehle ausführen, Dateien lesen,
00:05:15Standard-Kommandozeilen-Tools wie grep und cat –
00:05:18Dinge, die du oder ich tatsächlich benutzen würden.
00:05:20Und die Genauigkeit stieg von 80 % auf 100 %.
00:05:25Er verbrauchte 40 % weniger Token
00:05:28und war dreieinhalbmal schneller.
00:05:31Ehrlich gesagt, das ist schon krass, oder?
00:05:33Und der Ingenieur, der das gebaut hat, sagte etwas,
00:05:36das mir wirklich im Gedächtnis geblieben ist.
00:05:38Modelle werden immer intelligenter.
00:05:40Kontextfenster werden immer größer.
00:05:42Vielleicht ist die beste Agenten-Architektur also
00:05:44fast gar keine Architektur.
00:05:46Und das stellt alles auf den Kopf, verstehst du?
00:05:50Denn der Instinkt – besonders wenn man solo arbeitet
00:05:54und versucht, das Ding zuverlässig zu machen –
00:05:57ist, immer mehr Tools, mehr Leitplanken
00:06:01und mehr Routing-Logik hinzuzufügen.
00:06:02Man denkt, mehr Struktur würde helfen,
00:06:04aber diese Tools haben dem Modell nicht geholfen.
00:06:06Sie standen ihm im Weg.
00:06:08Und das ist kein Einzelfall.
00:06:10Manus hatte genau die gleiche Erkenntnis.
00:06:13Sie haben ihr gesamtes Agent-Framework
00:06:16fünfmal in sechs Monaten neu aufgebaut,
00:06:19und ihre größten Leistungssteigerungen
00:06:21kamen nicht durch das Hinzufügen von Features.
00:06:23Sie kamen durch das Entfernen.
00:06:25Sie warfen komplexe Dokumentenabrufe raus,
00:06:28strichen die ausgeklügelte Routing-Logik
00:06:29und ersetzten Management-Agenten durch einfache strukturierte Übergaben.
00:06:34Mit jeder Iteration wurde das Ding einfacher und besser.
00:06:37Und hier ist der Teil, den jeder Solo-Dev,
00:06:40der lange Claude-Code-Sessions fährt, hören muss.
00:06:42Manus fand heraus, dass ihr Agent durchschnittlich
00:06:45etwa 50 Tool-Aufrufe pro Aufgabe machte.
00:06:49Das sind verdammt viele Schritte.
00:06:50Und selbst bei Modellen, die technisch gesehen
00:06:53riesige Kontextfenster unterstützen,
00:06:54lässt die Leistung ab einem gewissen Punkt einfach nach.
00:06:58Das Modell vergisst nicht plötzlich alles.
00:07:01Es ist eher so, dass das Signal im Rauschen untergeht.
00:07:04Deine wichtigen Anweisungen vom Anfang der Sitzung
00:07:07gehen unter hunderten von Zwischenergebnissen verloren.
00:07:10Ihre Lösung war also denkbar einfach.
00:07:12Sie fingen an, das Dateisystem
00:07:14als externen Speicher des Modells zu behandeln.
00:07:17Anstatt alles in das Kontextfenster zu quetschen,
00:07:20schreibt der Agent wichtige Infos in eine Datei
00:07:23und liest sie bei Bedarf wieder aus.
00:07:25Und ja, wenn du Claude Code benutzt,
00:07:27hast du das buchstäblich schon gesehen.
00:07:29Die claude.md-Dateien, die To-do-Listen, das Tracking,
00:07:34das ist genau dieses Muster, das sich jeden Tag
00:07:36in deinem Terminal abspielt.
00:07:37Erinnert ihr euch an das, was ich sagte,
00:07:40dass alle bei derselben Idee landen?
00:07:44Denn wenn man sich
00:07:45die drei erfolgreichsten Agenten-Systeme ansieht,
00:07:49sind sie alle am selben Punkt angekommen,
00:07:51nur aus völlig verschiedenen Richtungen.
00:07:53Codex von OpenAI nutzt diesen Schichten-Ansatz:
00:07:57Ein Orchestrator, der plant,
00:07:59ein Executor, der die einzelnen Aufgaben erledigt,
00:08:02und eine Recovery-Schicht, die Fehler abfängt.
00:08:06Es ist robust.
00:08:07Man kann ihm Aufgaben geben und weggehen.
00:08:09Das ist eine Philosophie.
00:08:10Claude Code – und das benutze ich jeden Tag.
00:08:14Der Kern besteht buchstäblich aus nur vier Tools:
00:08:16Datei lesen, Datei schreiben, Datei bearbeiten,
00:08:19einen Bash-Befehl ausführen, das war's.
00:08:21Der Großteil der Intelligenz steckt im Modell selbst.
00:08:23Der Harness bleibt minimal.
00:08:25Und wenn man mehr braucht, kommt die Erweiterbarkeit über MCP
00:08:28und Skills, die der Agent bei Bedarf erlernt.
00:08:30Und dann ist da Manus mit dem, was ich
00:08:33"Reduzieren, Auslagern, Isolieren" nenne: Den Kontext aktiv schrumpfen,
00:08:38das Dateisystem als Speicher nutzen,
00:08:40Sub-Agenten für schwere Aufgaben abspalten
00:08:43und nur die Zusammenfassung zurückholen.
00:08:45Drei völlig unterschiedliche Ansätze,” die
00:08:47alle bei derselben Erkenntnis landen:
00:08:50Der Harness ist wichtiger als das Modell.
00:08:52Und für Solo-Entwickler
00:08:55ändert das, worauf man seine Zeit
00:08:57eigentlich deine Zeit investieren solltest.
00:08:59Denn, weißt du, wir haben keine unendliche Zeit.
00:09:01Jede Stunde, die du auf Reddit damit verbringst,
00:09:05Claude gegen GPT zu debattieren, ist eine Stunde, in der du nichts veröffentlichst.
00:09:08Und es gibt diese Idee von Richard Sutton,
00:09:11einem der Schöpfer des Reinforcement Learning,
00:09:14genannt "The Bitter Lesson".
00:09:16Das Kernargument ist, dass
00:09:18Ansätze, die mit der Rechenleistung skalieren,
00:09:21am Ende immer die Ansätze schlagen,
00:09:23die auf handgefertigtem Expertenwissen basieren.
00:09:26Übertragen auf das, was wir tun,
00:09:27bedeutet das etwas sehr Spezifisches.
00:09:29Je smarter die Modelle werden,
00:09:31desto einfacher sollte dein Harness werden,
00:09:33nicht komplexer.
00:09:34Wenn du mit jedem Modell-Upgrade mehr fest codierte Logik
00:09:36und mehr eigene Pipelines hinzufügst,
00:09:40schwimmst du gegen den Strom.
00:09:42Und ehrlich gesagt ist dieses Over-Engineering
00:09:44wahrscheinlich der Grund, warum dein Agent ständig abstürzt.
00:09:47Also, das würde ich stattdessen versuchen:
00:09:49Erstens, mach das Vercel-Experiment selbst.
00:09:52Wenn du irgendein Agenten-Setup hast,
00:09:54reduziere es aufs Minimum, entferne die Spezialwerkzeuge,
00:09:57gib ihm ein Bash-Terminal und einfachen Dateizugriff
00:10:00und schau einfach, was passiert.
00:10:02Das Modell ist wahrscheinlich klüger
00:10:03als die Tool-Pipeline, die du drumherum gebaut hast.
00:10:06Zweitens: Füge eine Fortschrittsdatei hinzu.
00:10:08Lass deinen Agenten eine laufende To-Do-Liste führen,
00:10:10die er nach jedem Schritt aktualisiert.
00:10:13Er liest die Datei zu Beginn jeder Aktion
00:10:15und schreibt am Ende wieder hinein.
00:10:17Genau das macht Claude Code
00:10:19mit diesen Markdown-Dateien.
00:10:20Und es ist dasselbe Muster, bei dem Manish gelandet ist,
00:10:22nachdem er alles fünfmal komplett neu geschrieben hat.
00:10:24Ich habe tatsächlich ein ganzes System dafür
00:10:26in meinem Lab verkabelt, mit all meinen Agenten-Anweisungen
00:10:29und .md-Vorlagen – sofort einsatzbereit, falls du neugierig bist.
00:10:33Und drittens: Fang an, dich mit MCP und Skills zu beschäftigen.
00:10:37Diese geben dem Modell saubere, standardisierte Wege,” um
00:10:40mit externen Tools zu arbeiten,
00:10:42ohne dass du jede Integration selbst codieren musst.
00:10:44Dort liegt jetzt die Erweiterbarkeit.
00:10:462025 war das Jahr der Agenten.
00:10:50Und größtenteils ist das auch so gekommen.
00:10:53Aber 2026 – ich denke, 2026 ist das Jahr der Harnesses.
00:10:58Dasselbe Modell, exakt dasselbe Modell,
00:11:03verhält sich in Claude Code völlig anders
00:11:06als in Cursor oder in Codeium.
00:11:08Wähle deinen Harness also sorgfältig aus,
00:11:11egal ob du einen Coding-Agenten nutzt oder selbst einen baust.
00:11:14Und ja, wenn du immer noch hier bist,
00:11:17bist du ehrlich gesagt eine Legende.
00:11:18Ich weiß, der Diskurs um die Modelle ist gerade extrem laut.
00:11:22Jede Woche gibt es ein neues Release, einen neuen Benchmark,
00:11:24einen neuen Thread darüber, wer gerade der König ist.
00:11:27Aber die tatsächlichen Daten, das echte Engineering
00:11:30der Firmen, die dieses Zeug bauen,
00:11:32deuten alle in eine andere Richtung.
00:11:34Der Harness ist der Ort, an dem die Erfolge erzielt werden.
00:11:37Und für Solo-Entwickler sind das großartige Neuigkeiten,
00:11:40denn einen besseren Harness zu bauen,
00:11:42ist etwas, das du genau jetzt, heute tun kannst,
00:11:45ohne auf das nächste Modell-Release zu warten.
00:11:47Und wenn du tiefer eintauchen willst, wie ich das alles
00:11:51tatsächlich aufsetze – die .md-Dateien, die Workflows,
00:11:56wie ich alles für meine eigenen Apps verkable –,
00:11:59dann schau mal auf crafterslab.dev vorbei.
00:12:02Das ist kein simpler Tutorial-Friedhof oder eine KI-Content-Farm.
00:12:06Es ist mein echter Stützpunkt für Solo-Entwickler,
00:12:09die KI wie einen echten Teamkollegen behandeln
00:12:11und denen wirklich wichtig ist, was sie abliefern.
00:12:13Dort findest du vollständige Walkthroughs,
00:12:15kurze Video-Tutorials, einen Haufen Claude-Code-Skills,
00:12:19die du direkt übernehmen kannst,
00:12:21und Ressourcen zum Herunterladen, die du sofort
00:12:24in deine Projekte einbauen kannst.
00:12:26Mitglieder diskutieren in den Kommentaren,
00:12:29stellen Fragen und tauschen sich aus.
00:12:30Es ist ein echtes Gespräch, kein einseitiger Content-Feed.
00:12:34Aber der wahre Kern sind die Notion Team Spaces,
00:12:37mein Live-Playbook. Du bekommst einen Platz in der ersten Reihe,
00:12:40um zu sehen, wie ich jede einzelne meiner Apps entwickle.
00:12:42Die echten .md-Dateien, die ich in echten Projekten nutze,
00:12:46die Prompt-Library, die Dokumentation, die ich parallel schreibe,
00:12:49all die Automatisierungen im Hintergrund –
00:12:51nichts für die Kamera poliert, sondern der echte Prozess, inklusive Chaos.
00:12:55Und dann ist da noch SwiftBrain,
00:12:58eine kuratierte Swift- und SwiftUI-Library,
00:13:01die ich seit Jahren aufbaue, inklusive Deep-Dive-Keynotes
00:13:04und privaten Talks, für die ich viel Geld ausgegeben habe.
00:13:07Das ist Material, das nicht einfach so
00:13:10in öffentlichen Trainingsdaten herumschwirrt.
00:13:11Das ist das, was ich nutze, um eigene MCPs zu bauen,
00:13:16um Skills für Claude Code oder Cursor aufzusetzen – einfach alles.
00:13:20Immer am Experimentieren und Teilen, was funktioniert.
00:13:23Und schließlich das Ops Lab.
00:13:25Dort leben alle KI-Agenten-Anweisungen,
00:13:28die Notion-Templates, die Claude-Code-Skills,
00:13:31die Workflows und Automatisierungen – alles fertig verkabelt,
00:13:33damit du es kopieren, zerlegen,
00:13:36komplett umbauen und nach deinen Wünschen neu erschaffen kannst.
00:13:38Der Punkt ist, den Indie-Stack vernetzt zu halten,
00:13:41sodass du nie wirklich alleine baust,
00:13:44selbst wenn du alleine vor der Tastatur sitzt.
00:13:46Also, wenn du dabei sein willst, solange das Team noch klein ist
00:13:49und die Preise stabil sind, ist jetzt der ideale Zeitpunkt.
00:13:52Es fühlt sich eher wie eine Behind-the-Scenes Dev-Lounge an
00:13:55als wie ein riesiges, gesichtsloses Forum.
00:13:57Ich würde mich wirklich freuen, dich dort zu sehen.
00:14:00Lass uns Meinungen über dieses Harness-Thema austauschen,
00:14:02vielleicht lerne ich ja auch was von deinem nächsten Projekt.
00:14:05Baut weiter, experimentiert weiter,
00:14:08und lasst euch nicht vom Benchmark-Lärm
00:14:10von dem ablenken, was wirklich zählt.
00:14:12Peace.