Harness Engineering: Die entscheidende Fähigkeit für Solo-Entwickler in 2026

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

SSolo Swift Crafter

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Alles klar.

00:00:02Was ist momentan das beste KI-Modell?

00:00:04Claude, GPT, Gemini.

00:00:07Und ehrlich gesagt, ich halte das für die falsche Frage.

00:00:11Wirklich, die völlig falsche Frage.

00:00:14Kurz zu mir: Ich bin Daniel.

00:00:16Ich bin seit über acht Jahren tief in der iOS-Entwicklung.

00:00:20Angefangen habe ich als Freelancer, habe UIs entworfen,

00:00:24bin von Kunde zu Kunde gesprungen,

00:00:25habe die Ideen anderer Leute umgesetzt,

00:00:27während ich versucht habe, meine eigenen zu finden.

00:00:28Nach der WWDC 2025 bin ich dann voll eingestiegen, solo.

00:00:33Keine Kunden mehr, kein Sicherheitsnetz.

00:00:36Seitdem habe ich über 15 eigene Apps entwickelt,

00:00:39alle mit SwiftUI, alle öffentlich aufgebaut.

00:00:41Und momentan fließt wirklich jede Unze Energie,

00:00:44die ich habe, in dieses Solo-Studio,

00:00:46um daraus etwas zu machen, das Bestand hat.

00:00:49Keine schnellen MVPs oder KI-generierter Müll,

00:00:52sondern echte Apps, die skalierbar sind.

00:00:55Und ja, dieser ganze Prozess,

00:00:57der gesamte chaotische Weg, findet auf CraftersLab statt.

00:01:00Es ist auf crafterslab.dev zu finden,

00:01:01und es ist kein Friedhof für Tutorials oder eine KI-Klonfabrik.

00:01:06Es ist wirklich meine Operationsbasis,

00:01:08gebaut für Solo-Entwickler, die KI wie einen echten Teamkollegen nutzen.

00:01:12Nicht wie einen Verkaufsautomaten, an dem man rüttelt,

00:01:14wenn man feststeckt, und auf das Beste hofft.

00:01:16Wenn dir das Handwerk wichtig ist,

00:01:18wenn du es ernst meinst mit dem nächsten Level

00:01:20und Dinge bauen willst, die wirklich bleiben,

00:01:23dann würdest du dich dort wohlfühlen.

00:01:24Und hey, falls du noch auf Patreon bist,

00:01:26vielen Dank dafür, aber ein kleiner Hinweis:

00:01:29Alles ist umgezogen auf crafterslab.dev.

00:01:32Dort ist jetzt die ganze Truppe.

00:01:33Komm und bau mit uns.

00:01:35Hier ist also das, was mich zum Nachdenken gebracht hat.

00:01:38Vor kurzem kam eine Studie heraus.

00:01:41Forscher haben diesen Benchmark namens "Epic's Agent" veröffentlicht.

00:01:45Und was ihn von all den anderen Benchmarks unterscheidet,

00:01:49über die sich die Leute online streiten,

00:01:51ist, dass er Agenten an echter professioneller Arbeit testet,

00:01:55nicht an Programmierrätseln oder Multiple-Choice-Fragen.

00:01:58Wir sprechen hier von tatsächlichen Aufgaben,

00:02:03die Berater, Anwälte und Analysten täglich erledigen.

00:02:05Jede Aufgabe dauert für einen Menschen etwa ein bis zwei Stunden.

00:02:08Sie haben also jedes große Spitzenmodell durchgejagt.

00:02:11Das beste Modell hat diese Aufgaben

00:02:13in etwa 24 % der Fälle gelöst – also eine von vier.

00:02:17Nach acht Versuchen mit demselben Modell

00:02:20stieg die Quote nur auf etwa 40 %.

00:02:23Man muss bedenken: Das sind dieselben Modelle,

00:02:26die bei den Benchmarks, über die alle ausrasten,

00:02:29Werte von über 90 % erzielen.

00:02:32Entweder stimmen also diese Benchmarks nicht,

00:02:33oder wir messen das Falsche.

00:02:36Ich glaube, es ist das Zweite.

00:02:37Aber okay, jetzt wird es für uns interessant.

00:02:41Die Forscher haben untersucht, warum die Agenten gescheitert sind.

00:02:46Und die Antwort war nicht, dass die Modelle zu dumm sind.

00:02:49Sie hatten das nötige Wissen.

00:02:51Sie konnten die Probleme problemlos durchdenken.

00:02:54Das Scheitern lag fast ausschließlich

00:02:56an der Ausführung und Orchestrierung.

00:03:00Die Agenten haben nach zu vielen Schritten den Faden verloren.

00:03:02Sie kehrten zu Ansätzen zurück, die bereits gescheitert waren.

00:03:05Sie haben einfach vergessen, was sie eigentlich

00:03:09von Anfang an tun sollten.

00:03:11Und wenn du als Solo-Dev täglich Claude Code

00:03:14oder Cursor benutzt, dann kennst du das.

00:03:18Du hast zugesehen, wie der Agent in eine Spirale gerät,

00:03:21dasselbe kaputte Ding dreimal versucht

00:03:23und den Kontext von vor 20 Schritten völlig vergisst.

00:03:26Und du denkst dir:

00:03:28Vielleicht sollte ich zu Opus wechseln.

00:03:30Vielleicht brauche ich einen anderen Anbieter,

00:03:32aber die Daten sagen: Das ist es nicht.

00:03:34Das Modell ist nicht der Flaschenhals.

00:03:36Es ist alles, was drumherum gebaut wurde.

00:03:38Dafür gibt es ein Wort.

00:03:40Und ich glaube, es wird das Jahr 2026 so prägen,

00:03:43wie die Agenten das Jahr 2025 geprägt haben.

00:03:46Das Wort ist "Harness" (Rahmenstruktur).

00:03:47Ein Agent-Harness umfasst die gesamte Infrastruktur

00:03:50um das Modell: Was es sehen kann,

00:03:52auf welche Tools es Zugriff hat,

00:03:54wie es reagiert, wenn etwas schiefläuft,

00:03:56und wie es den Überblick über eine lange Sitzung behält.

00:03:59OpenAI hat buchstäblich einen Blogpost veröffentlicht

00:04:02mit dem Titel "Harness Engineering".

00:04:04Anthropic hat einen Leitfaden herausgebracht,

00:04:07wie man effektive Harnesses für ausdauernde Agenten baut.

00:04:09Manus, die KI-Firma, die Meta gerade gekauft hat,

00:04:13hat ihre Lektionen zum Context-Engineering veröffentlicht,

00:04:16nachdem sie ihr gesamtes Agent-Framework

00:04:19fünfmal in sechs Monaten neu aufgebaut haben. Fünfmal.

00:04:22Und sie sagen alle genau dasselbe.

00:04:24Die eigentliche Ingenieursarbeit steckt im Harness,

00:04:27nicht im Modell.

00:04:28Okay, und das ist der Teil, der mich ehrlich überrascht hat,

00:04:32weil er komplett dem widerspricht,

00:04:34wie die meisten von uns über den Bau dieser Tools denken.

00:04:38Es gibt da diese Geschichte von Vercel.

00:04:41Sie hatten einen Text-to-SQL-Agenten.

00:04:43Man stellt eine Frage, er schreibt eine SQL-Abfrage.

00:04:46Sie bauten ihn so, wie die meisten Agenten bauen:

00:04:49Sie gaben ihm einen Haufen spezialisierter Tools,

00:04:51eines zum Verstehen des Datenbankschemas,

00:04:54eines zum Schreiben von Abfragen, eines zum Validieren.

00:04:58Die ganze Fehlerbehandlung war drumherum gewickelt,

00:05:01und es funktionierte in etwa 80 % der Fälle.

00:05:04Dann versuchten sie etwas Radikales.

00:05:06Sie entfernten 80 % der Tools, rissen sie einfach raus.

00:05:11Sie gaben dem Agenten Basics: Bash-Befehle ausführen, Dateien lesen,

00:05:15Standard-Kommandozeilen-Tools wie grep und cat –

00:05:18Dinge, die du oder ich tatsächlich benutzen würden.

00:05:20Und die Genauigkeit stieg von 80 % auf 100 %.

00:05:25Er verbrauchte 40 % weniger Token

00:05:28und war dreieinhalbmal schneller.

00:05:31Ehrlich gesagt, das ist schon krass, oder?

00:05:33Und der Ingenieur, der das gebaut hat, sagte etwas,

00:05:36das mir wirklich im Gedächtnis geblieben ist.

00:05:38Modelle werden immer intelligenter.

00:05:40Kontextfenster werden immer größer.

00:05:42Vielleicht ist die beste Agenten-Architektur also

00:05:44fast gar keine Architektur.

00:05:46Und das stellt alles auf den Kopf, verstehst du?

00:05:50Denn der Instinkt – besonders wenn man solo arbeitet

00:05:54und versucht, das Ding zuverlässig zu machen –

00:05:57ist, immer mehr Tools, mehr Leitplanken

00:06:01und mehr Routing-Logik hinzuzufügen.

00:06:02Man denkt, mehr Struktur würde helfen,

00:06:04aber diese Tools haben dem Modell nicht geholfen.

00:06:06Sie standen ihm im Weg.

00:06:08Und das ist kein Einzelfall.

00:06:10Manus hatte genau die gleiche Erkenntnis.

00:06:13Sie haben ihr gesamtes Agent-Framework

00:06:16fünfmal in sechs Monaten neu aufgebaut,

00:06:19und ihre größten Leistungssteigerungen

00:06:21kamen nicht durch das Hinzufügen von Features.

00:06:23Sie kamen durch das Entfernen.

00:06:25Sie warfen komplexe Dokumentenabrufe raus,

00:06:28strichen die ausgeklügelte Routing-Logik

00:06:29und ersetzten Management-Agenten durch einfache strukturierte Übergaben.

00:06:34Mit jeder Iteration wurde das Ding einfacher und besser.

00:06:37Und hier ist der Teil, den jeder Solo-Dev,

00:06:40der lange Claude-Code-Sessions fährt, hören muss.

00:06:42Manus fand heraus, dass ihr Agent durchschnittlich

00:06:45etwa 50 Tool-Aufrufe pro Aufgabe machte.

00:06:49Das sind verdammt viele Schritte.

00:06:50Und selbst bei Modellen, die technisch gesehen

00:06:53riesige Kontextfenster unterstützen,

00:06:54lässt die Leistung ab einem gewissen Punkt einfach nach.

00:06:58Das Modell vergisst nicht plötzlich alles.

00:07:01Es ist eher so, dass das Signal im Rauschen untergeht.

00:07:04Deine wichtigen Anweisungen vom Anfang der Sitzung

00:07:07gehen unter hunderten von Zwischenergebnissen verloren.

00:07:10Ihre Lösung war also denkbar einfach.

00:07:12Sie fingen an, das Dateisystem

00:07:14als externen Speicher des Modells zu behandeln.

00:07:17Anstatt alles in das Kontextfenster zu quetschen,

00:07:20schreibt der Agent wichtige Infos in eine Datei

00:07:23und liest sie bei Bedarf wieder aus.

00:07:25Und ja, wenn du Claude Code benutzt,

00:07:27hast du das buchstäblich schon gesehen.

00:07:29Die claude.md-Dateien, die To-do-Listen, das Tracking,

00:07:34das ist genau dieses Muster, das sich jeden Tag

00:07:36in deinem Terminal abspielt.

00:07:37Erinnert ihr euch an das, was ich sagte,

00:07:40dass alle bei derselben Idee landen?

00:07:44Denn wenn man sich

00:07:45die drei erfolgreichsten Agenten-Systeme ansieht,

00:07:49sind sie alle am selben Punkt angekommen,

00:07:51nur aus völlig verschiedenen Richtungen.

00:07:53Codex von OpenAI nutzt diesen Schichten-Ansatz:

00:07:57Ein Orchestrator, der plant,

00:07:59ein Executor, der die einzelnen Aufgaben erledigt,

00:08:02und eine Recovery-Schicht, die Fehler abfängt.

00:08:06Es ist robust.

00:08:07Man kann ihm Aufgaben geben und weggehen.

00:08:09Das ist eine Philosophie.

00:08:10Claude Code – und das benutze ich jeden Tag.

00:08:14Der Kern besteht buchstäblich aus nur vier Tools:

00:08:16Datei lesen, Datei schreiben, Datei bearbeiten,

00:08:19einen Bash-Befehl ausführen, das war's.

00:08:21Der Großteil der Intelligenz steckt im Modell selbst.

00:08:23Der Harness bleibt minimal.

00:08:25Und wenn man mehr braucht, kommt die Erweiterbarkeit über MCP

00:08:28und Skills, die der Agent bei Bedarf erlernt.

00:08:30Und dann ist da Manus mit dem, was ich

00:08:33"Reduzieren, Auslagern, Isolieren" nenne: Den Kontext aktiv schrumpfen,

00:08:38das Dateisystem als Speicher nutzen,

00:08:40Sub-Agenten für schwere Aufgaben abspalten

00:08:43und nur die Zusammenfassung zurückholen.

00:08:45Drei völlig unterschiedliche Ansätze,” die

00:08:47alle bei derselben Erkenntnis landen:

00:08:50Der Harness ist wichtiger als das Modell.

00:08:52Und für Solo-Entwickler

00:08:55ändert das, worauf man seine Zeit

00:08:57eigentlich deine Zeit investieren solltest.

00:08:59Denn, weißt du, wir haben keine unendliche Zeit.

00:09:01Jede Stunde, die du auf Reddit damit verbringst,

00:09:05Claude gegen GPT zu debattieren, ist eine Stunde, in der du nichts veröffentlichst.

00:09:08Und es gibt diese Idee von Richard Sutton,

00:09:11einem der Schöpfer des Reinforcement Learning,

00:09:14genannt "The Bitter Lesson".

00:09:16Das Kernargument ist, dass

00:09:18Ansätze, die mit der Rechenleistung skalieren,

00:09:21am Ende immer die Ansätze schlagen,

00:09:23die auf handgefertigtem Expertenwissen basieren.

00:09:26Übertragen auf das, was wir tun,

00:09:27bedeutet das etwas sehr Spezifisches.

00:09:29Je smarter die Modelle werden,

00:09:31desto einfacher sollte dein Harness werden,

00:09:33nicht komplexer.

00:09:34Wenn du mit jedem Modell-Upgrade mehr fest codierte Logik

00:09:36und mehr eigene Pipelines hinzufügst,

00:09:40schwimmst du gegen den Strom.

00:09:42Und ehrlich gesagt ist dieses Over-Engineering

00:09:44wahrscheinlich der Grund, warum dein Agent ständig abstürzt.

00:09:47Also, das würde ich stattdessen versuchen:

00:09:49Erstens, mach das Vercel-Experiment selbst.

00:09:52Wenn du irgendein Agenten-Setup hast,

00:09:54reduziere es aufs Minimum, entferne die Spezialwerkzeuge,

00:09:57gib ihm ein Bash-Terminal und einfachen Dateizugriff

00:10:00und schau einfach, was passiert.

00:10:02Das Modell ist wahrscheinlich klüger

00:10:03als die Tool-Pipeline, die du drumherum gebaut hast.

00:10:06Zweitens: Füge eine Fortschrittsdatei hinzu.

00:10:08Lass deinen Agenten eine laufende To-Do-Liste führen,

00:10:10die er nach jedem Schritt aktualisiert.

00:10:13Er liest die Datei zu Beginn jeder Aktion

00:10:15und schreibt am Ende wieder hinein.

00:10:17Genau das macht Claude Code

00:10:19mit diesen Markdown-Dateien.

00:10:20Und es ist dasselbe Muster, bei dem Manish gelandet ist,

00:10:22nachdem er alles fünfmal komplett neu geschrieben hat.

00:10:24Ich habe tatsächlich ein ganzes System dafür

00:10:26in meinem Lab verkabelt, mit all meinen Agenten-Anweisungen

00:10:29und .md-Vorlagen – sofort einsatzbereit, falls du neugierig bist.

00:10:33Und drittens: Fang an, dich mit MCP und Skills zu beschäftigen.

00:10:37Diese geben dem Modell saubere, standardisierte Wege,” um

00:10:40mit externen Tools zu arbeiten,

00:10:42ohne dass du jede Integration selbst codieren musst.

00:10:44Dort liegt jetzt die Erweiterbarkeit.

00:10:462025 war das Jahr der Agenten.

00:10:50Und größtenteils ist das auch so gekommen.

00:10:53Aber 2026 – ich denke, 2026 ist das Jahr der Harnesses.

00:10:58Dasselbe Modell, exakt dasselbe Modell,

00:11:03verhält sich in Claude Code völlig anders

00:11:06als in Cursor oder in Codeium.

00:11:08Wähle deinen Harness also sorgfältig aus,

00:11:11egal ob du einen Coding-Agenten nutzt oder selbst einen baust.

00:11:14Und ja, wenn du immer noch hier bist,

00:11:17bist du ehrlich gesagt eine Legende.

00:11:18Ich weiß, der Diskurs um die Modelle ist gerade extrem laut.

00:11:22Jede Woche gibt es ein neues Release, einen neuen Benchmark,

00:11:24einen neuen Thread darüber, wer gerade der König ist.

00:11:27Aber die tatsächlichen Daten, das echte Engineering

00:11:30der Firmen, die dieses Zeug bauen,

00:11:32deuten alle in eine andere Richtung.

00:11:34Der Harness ist der Ort, an dem die Erfolge erzielt werden.

00:11:37Und für Solo-Entwickler sind das großartige Neuigkeiten,

00:11:40denn einen besseren Harness zu bauen,

00:11:42ist etwas, das du genau jetzt, heute tun kannst,

00:11:45ohne auf das nächste Modell-Release zu warten.

00:11:47Und wenn du tiefer eintauchen willst, wie ich das alles

00:11:51tatsächlich aufsetze – die .md-Dateien, die Workflows,

00:11:56wie ich alles für meine eigenen Apps verkable –,

00:11:59dann schau mal auf crafterslab.dev vorbei.

00:12:02Das ist kein simpler Tutorial-Friedhof oder eine KI-Content-Farm.

00:12:06Es ist mein echter Stützpunkt für Solo-Entwickler,

00:12:09die KI wie einen echten Teamkollegen behandeln

00:12:11und denen wirklich wichtig ist, was sie abliefern.

00:12:13Dort findest du vollständige Walkthroughs,

00:12:15kurze Video-Tutorials, einen Haufen Claude-Code-Skills,

00:12:19die du direkt übernehmen kannst,

00:12:21und Ressourcen zum Herunterladen, die du sofort

00:12:24in deine Projekte einbauen kannst.

00:12:26Mitglieder diskutieren in den Kommentaren,

00:12:29stellen Fragen und tauschen sich aus.

00:12:30Es ist ein echtes Gespräch, kein einseitiger Content-Feed.

00:12:34Aber der wahre Kern sind die Notion Team Spaces,

00:12:37mein Live-Playbook. Du bekommst einen Platz in der ersten Reihe,

00:12:40um zu sehen, wie ich jede einzelne meiner Apps entwickle.

00:12:42Die echten .md-Dateien, die ich in echten Projekten nutze,

00:12:46die Prompt-Library, die Dokumentation, die ich parallel schreibe,

00:12:49all die Automatisierungen im Hintergrund –

00:12:51nichts für die Kamera poliert, sondern der echte Prozess, inklusive Chaos.

00:12:55Und dann ist da noch SwiftBrain,

00:12:58eine kuratierte Swift- und SwiftUI-Library,

00:13:01die ich seit Jahren aufbaue, inklusive Deep-Dive-Keynotes

00:13:04und privaten Talks, für die ich viel Geld ausgegeben habe.

00:13:07Das ist Material, das nicht einfach so

00:13:10in öffentlichen Trainingsdaten herumschwirrt.

00:13:11Das ist das, was ich nutze, um eigene MCPs zu bauen,

00:13:16um Skills für Claude Code oder Cursor aufzusetzen – einfach alles.

00:13:20Immer am Experimentieren und Teilen, was funktioniert.

00:13:23Und schließlich das Ops Lab.

00:13:25Dort leben alle KI-Agenten-Anweisungen,

00:13:28die Notion-Templates, die Claude-Code-Skills,

00:13:31die Workflows und Automatisierungen – alles fertig verkabelt,

00:13:33damit du es kopieren, zerlegen,

00:13:36komplett umbauen und nach deinen Wünschen neu erschaffen kannst.

00:13:38Der Punkt ist, den Indie-Stack vernetzt zu halten,

00:13:41sodass du nie wirklich alleine baust,

00:13:44selbst wenn du alleine vor der Tastatur sitzt.

00:13:46Also, wenn du dabei sein willst, solange das Team noch klein ist

00:13:49und die Preise stabil sind, ist jetzt der ideale Zeitpunkt.

00:13:52Es fühlt sich eher wie eine Behind-the-Scenes Dev-Lounge an

00:13:55als wie ein riesiges, gesichtsloses Forum.

00:13:57Ich würde mich wirklich freuen, dich dort zu sehen.

00:14:00Lass uns Meinungen über dieses Harness-Thema austauschen,

00:14:02vielleicht lerne ich ja auch was von deinem nächsten Projekt.

00:14:05Baut weiter, experimentiert weiter,

00:14:08und lasst euch nicht vom Benchmark-Lärm

00:14:10von dem ablenken, was wirklich zählt.

00:14:12Peace.

Key Takeaway

Der Erfolg von KI-Agenten im Jahr 2026 hängt weniger vom gewählten Modell ab als vielmehr von einem schlanken, effektiven "Harness Engineering", das auf Reduktion und externem Speichermanagement basiert.

Highlights

Herkömmliche KI-Benchmarks korrelieren oft nicht mit der tatsächlichen Leistung in komplexen, mehrstündigen beruflichen Aufgaben.

Das Scheitern von KI-Agenten liegt meist nicht an mangelnder Intelligenz, sondern an mangelhafter Orchestrierung und Ausführung.

Harness Engineering (Rahmenstruktur) wird als die entscheidende Disziplin für das Jahr 2026 identifiziert, die wichtiger ist als das Modell selbst.

Komplexitätsreduktion führt oft zu besseren Ergebnissen; das Entfernen spezialisierter Tools steigerte bei Vercel die Genauigkeit auf 100 %.

Effektive Agenten nutzen das Dateisystem als externen Speicher (z. B. claude.md), um den Kontext über lange Sitzungen hinweg stabil zu halten.

Der Trend geht weg von handgefertigtem Expertenwissen hin zu einfachen, skalierbaren Systemen, die mit der Rechenleistung wachsen.

Plattformen wie crafterslab.dev bieten Solo-Entwicklern praktische Ressourcen wie MCP-Skills und Workflow-Vorlagen für den KI-Einsatz.

Timeline

Einführung und der Trugschluss der Benchmarks

Daniel, ein erfahrener iOS-Entwickler, stellt die Frage nach dem besten KI-Modell in Frage und führt seine Vision des Solo-Studios ein. Er präsentiert die Studie "Epic's Agent", die zeigt, dass Top-Modelle bei echten beruflichen Aufgaben oft nur eine Erfolgsquote von 24 % erreichen. Während herkömmliche Benchmarks Werte über 90 % suggerieren, versagen Agenten in der Praxis bei Aufgaben, die ein bis zwei Stunden dauern. Der Sprecher betont, dass wir entweder die falschen Dinge messen oder die Benchmarks die Realität nicht widerspiegeln. Dieser Abschnitt legt den Grundstein für die Argumentation, dass reine Modellintelligenz nicht ausreicht.

Die Ursachen des Scheiterns: Ausführung vs. Intelligenz

Die Analyse der Agenten-Fehler zeigt, dass mangelnde Intelligenz nicht das Problem ist, da die Modelle das nötige Wissen besitzen. Das eigentliche Hindernis ist der Verlust des roten Fadens bei der Orchestrierung über viele Arbeitsschritte hinweg. Agenten verfangen sich in Endlosschleifen oder vergessen den ursprünglichen Kontext, was viele Nutzer von Tools wie Claude Code oder Cursor bereits erlebt haben. Daniel stellt klar, dass ein Wechsel des Modellanbieters oft nicht die Lösung ist, da der Flaschenhals in der Infrastruktur liegt. Es wird deutlich, dass die Umgebung, in der das Modell agiert, die entscheidende Variable für die Zuverlässigkeit ist.

Harness Engineering: Der neue Standard für 2026

Der Begriff "Harness" (Rahmenstruktur) wird als das prägende Thema für 2026 eingeführt, wobei Branchengrößen wie OpenAI und Anthropic diesen Trend bereits bestätigen. Daniel illustriert dies am Beispiel von Vercel, die durch das Entfernen von 80 % ihrer spezialisierten Tools die Genauigkeit ihres SQL-Agenten massiv steigerten. Anstatt komplexer Logik erhielt der Agent nur noch Basis-Werkzeuge wie Bash-Befehle und Dateizugriff, was ihn schneller und effizienter machte. Dieses Beispiel zeigt eindrucksvoll, dass weniger oft mehr ist und Over-Engineering dem Modell im Weg stehen kann. Die Erkenntnis lautet: Die eigentliche Ingenieursleistung findet heute im Rahmen um das Modell herum statt.

Strategien der Marktführer und Context-Management

Der Sprecher vergleicht die Ansätze von OpenAI, Anthropic und Manus, die alle unabhängig voneinander bei ähnlichen, minimalistischen Lösungen gelandet sind. Manus stellte fest, dass die Leistung sinkt, wenn zu viele Informationen im Kontextfenster landen, und nutzt daher das Dateisystem als externen Speicher. Claude Code folgt einem ähnlichen Muster mit nur vier Kern-Tools und der Nutzung von Markdown-Dateien für das Tracking. Daniel fasst dies unter dem Motto "Reduzieren, Auslagern, Isolieren" zusammen, um das Signal-Rausch-Verhältnis hoch zu halten. Diese Konvergenz der Strategien beweist, dass ein robuster Harness wichtiger ist als die ständige Jagd nach dem neuesten Modell-Release.

Praktische Umsetzung für Solo-Entwickler

Basierend auf der "Bitter Lesson" von Richard Sutton argumentiert Daniel, dass Solo-Entwickler ihre Harnesses mit zunehmender Modellintelligenz vereinfachen sollten. Er gibt drei konkrete Handlungsempfehlungen: Reduktion auf Basis-Tools, Einführung von Fortschrittsdateien zur Kontextsicherung und die Nutzung von MCP (Model Context Protocol). Durch diese Maßnahmen können Entwickler sofortige Leistungssteigerungen erzielen, ohne auf externe Updates warten zu müssen. Der Fokus verschiebt sich von der Debatte über Modell-Rankings hin zum Aufbau eigener, effizienter Workflows. Daniel betont, dass die Zeit besser in das Veröffentlichen von Apps investiert ist als in endlose Online-Diskussionen.

Ressourcen und Community im Crafters Lab

Im abschließenden Teil stellt Daniel sein Projekt crafterslab.dev vor, das als Operationsbasis und Lernplattform für Solo-Entwickler dient. Er bietet dort tiefere Einblicke in seine echten Workflows, inklusive Prompt-Libraries, .md-Vorlagen und der SwiftBrain-Bibliothek. Die Plattform versteht sich nicht als reine Tutorial-Seite, sondern als interaktive Dev-Lounge für den Austausch über moderne KI-Entwicklung. Daniel lädt die Zuschauer ein, Teil dieser Community zu werden, um gemeinsam stabilere und skalierbare Apps zu bauen. Sein Schlusswort erinnert daran, sich nicht vom Benchmark-Lärm ablenken zu lassen und das Handwerk des Harness Engineering zu meistern.

Community Posts

Harness Engineering: Ein Praxisleitfaden für Solo-Entwickler zur Steigerung der AI-Agent-Genauigkeit auf 100% im Jahr 2026

makedreamMar 20, 20265430

Write about this video