Log in to leave a comment
No posts yet
Markdown-Dateien, die aus dem Web gescrapt wurden, sind oft voller Rauschen wie Werbung und Menüleisten. Wenn solcher Text beigemischt ist, sinkt die Leistung von RAG (Retrieval-Augmented Generation) merklich. In der Realität lenken unbereinigte Daten die Aufmerksamkeit des Modells ab, während sauber strukturiertes Markdown die Suchgenauigkeit erhöht. Das Entfernen unnötiger Texte reduziert die von lokalen LLMs verbrauchten Token um über 30 %, sodass kein Geld verschwendet wird.
Verwenden Sie die BeautifulSoup-Bibliothek von Python, um dieses Rauschen zu beseitigen.
pip install beautifulsoup4 lxml eingeben.decompose() ganze CSS-Klassen wie .ad-container oder .nav-menu.lxml-Parser nur den Haupttext, speichern Sie ihn als Markdown und verschieben Sie ihn in Ihren Obsidian-Vault.Wenn die Anzahl der Dateien in die Hunderte geht, verliert selbst das intelligenteste Modell den Kontext. Stapeln Sie Dateien nicht einfach wahllos, sondern unterteilen Sie Bereiche basierend auf dem Status der Informationen. Ich verwende eine dreistufige Struktur (01_Raw_Inbox, 02_Processed_Wiki, 03_Project_Action), die eine Abwandlung des PARA-Frameworks ist. Dies gibt Claude Code eine physische Richtlinie, welchen Informationen er vertrauen und worauf er sich beziehen soll.
Nutzen Sie Dateinamen und Terminal-Optionen, damit der Agent nicht umherirrt.
YYYY-MM-DD vor jeden Dateinamen, um anzuzeigen, wie aktuell die Information ist.--newer-than, damit nur Dateien gelesen werden, die sich in den letzten 24 Stunden geändert haben.03_Project_Action nur Dateien ab, die den aktuellen Arbeitsstatus enthalten.Eine einfache Textsuche kann nicht unterscheiden, ob ein Dokument "wichtig" oder "erledigt" ist. Daher müssen Sie YAML-Frontmatter am Anfang des Dokuments einfügen. Mit Metadaten können Sie Claude Code wesentlich präzisere Anweisungen geben.
Für die Arbeits-Engine eines Wissensunternehmers reichen drei Felder aus.
topic zur Themeneinteilung, source_importance für die Relevanz und status für den Arbeitszustand ganz oben in der Notiz.Das terminalbasierte Claude Code entfaltet seine wahre Kraft in Kombination mit Shell-Skripten. Wenn Sie nach der Ankunft am Arbeitsplatz nur einen Befehl eingeben, ist die Engine fertig, die die gestrigen Lerninhalte analysiert und sogar E-Mail-Entwürfe für heute erstellt. Sie müssen keine Energie mehr darauf verschwenden, jeden Morgen zu überlegen, was Sie zuerst tun sollen.
Automatisieren Sie die Routine wie folgt:
.sh oder .bat) mit dem Befehl claude --bare, um die Startgeschwindigkeit zu erhöhen.find -mtime -1 in das Skript, um nur die im letzten Tag erstellten Notizen an Claude zu übergeben.Wenn die Anzahl der Dateien tausend übersteigt, füllt sich selbst ein Kontextfenster von 200.000 Token schnell. Ab diesem Punkt sollten Sie nicht mehr alle Dateien einlesen lassen, sondern eine zweistufige Methode anwenden, bei der zuerst die master_index.md, die als Gesamtkarte fungiert, gesichtet wird. Diese Methode reduziert die Anzahl der API-Aufrufe um fast 60 %.
Um die Leistung aufrechtzuerhalten, müssen Sie das Kontextmanagement klug angehen.
/compact zusammen, wenn das Gespräch zu lang wird.