Skip to content
Anwendungsfälle

Website in eine KI-Wissensdatenbank verwandeln — Automatisches Crawlen, Chunking und Suche

Richten Sie JieGou auf Ihre Sitemap und Ihre gesamte Website wird in Minuten zu einer durchsuchbaren KI-Wissensdatenbank. Sitemap-Erkennung, intelligente Filterung, inkrementelle Aktualisierung und integrierte Firestore-Vektorsuche — keine externe Vektor-DB erforderlich.

JT
JieGou Team
· · 4 Min. Lesezeit

Das Problem: Ihre Website weiß mehr als Ihre KI

Ihre Website ist die aktuellste Informationsquelle Ihres Unternehmens — Produktseiten, Preise, Dokumentation, Support-Artikel, Richtlinien und Blog-Beiträge. Aber Ihre KI-Workflows können auf nichts davon zugreifen.

Teams greifen zu Workarounds:

  • Kopieren und Einfügen von Web-Inhalten in Dokumente, die sofort veraltet sind
  • Manuelles Aktualisieren von FAQ-Datenbanken, wenn sich eine Produktseite ändert
  • Parallele Systeme pflegen — eines für die Website, ein anderes für die KI-Wissensdatenbank

Das Ergebnis: Eine KI, die veraltete Antworten gibt, weil ihre Wissensdatenbank immer einen Schritt hinter der Website zurückliegt.

Die Lösung: Automatische Website-zu-Wissensdatenbank-Pipeline

JieGous Website-Crawl-Pipeline verwandelt Ihre gesamte Website automatisch in eine durchsuchbare KI-Wissensdatenbank. Richten Sie sie auf Ihre Sitemap, konfigurieren Sie ein paar Regeln — den Rest erledigt die Automatisierung.

So funktioniert es

1. Sitemap-Erkennung

Geben Sie Ihre Website-URL ein. JieGou ruft Ihre sitemap.xml ab, löst Sitemap-Indexdateien und verschachtelte Sitemaps auf und entdeckt alle indexierbaren Seiten. Ohne Sitemap startet die URL-basierte Erkennung von Ihrer Startseite.

2. Intelligente Filterung

Nicht jede Seite gehört in Ihre Wissensdatenbank. Konfigurieren Sie Ausschlussmuster (/admin/*, /staging/*, /tag/*) und Tiefenlimits zur Steuerung des Umfangs. Eine Vor-Crawl-Schätzung zeigt die genaue Seitenzahl und geschätzte Verarbeitungszeit.

3. Crawlen und Extrahieren

Seiten werden parallel mit konfigurierbarer Parallelität gecrawlt. Die Pipeline extrahiert sauberen Textinhalt — Navigation, Footer, Cookie-Banner und Boilerplate werden entfernt. Für JavaScript-gerenderte SPAs kann optional Headless Chromium aktiviert werden.

4. Chunking und Embedding

Inhalte werden mit überschriftsbasierter Aufteilung und Absatz-Fallback optimal segmentiert. Jeder Chunk erhält ein Vektor-Embedding über OpenAI text-embedding-3-small und wird direkt in Firestore gespeichert — keine externe Vektordatenbank erforderlich.

5. Inkrementelle Aktualisierung

Ein geplanter Re-Crawl prüft geänderte Seiten anhand von Content-Hashes. Nur tatsächlich geänderte Seiten werden erneut verarbeitet — das spart Rechen- und Embedding-Kosten. Ihre Wissensdatenbank bleibt ohne manuellen Eingriff aktuell.

6. Vektorsuche bereit

Ihre Wissensdatenbank ist sofort für alle Rezepte und Workflows verfügbar. Die Firestore-native Vektorsuche mit Redis-Caching liefert Sub-Sekunden-Abruf — selbst bei Tausenden von Seiten.

Warum integrierte Vektorsuche wichtig ist

Die meisten KI-Plattformen erfordern die Einrichtung und Verwaltung einer externen Vektordatenbank — Pinecone, Weaviate, Qdrant oder ChromaDB. Das bedeutet einen weiteren Service, einen weiteren API-Schlüssel, eine weitere Rechnung und einen weiteren Ausfallpunkt.

JieGous Vektorsuche ist in Firestore integriert:

  • Null Infrastruktur — keine externe Vektor-DB bereitzustellen oder zu verwalten
  • Hybride Suche — zuerst Vektor-Ähnlichkeitssuche, Brute-Force + Redis-Cache-Fallback für Grenzfälle
  • Sub-Sekunden-Performance — Cold Queries über 700+ Dokumente in ~10 Sekunden; Warm Queries über Redis-Cache in unter 1 Sekunde
  • Dokument-basiertes Caching — Redis 10-Minuten-TTL eliminiert redundante Embedding-Abfragen

Praxisbeispiele

Support: Immer aktuelle FAQ

Die Wissensdatenbank Ihres Support-Teams spiegelt automatisch die neueste Produktdokumentation wider. Wenn Sie einen Hilfeartikel auf Ihrer Website aktualisieren, wird er im nächsten Crawl-Zyklus synchronisiert — kein manueller Import.

Vertrieb: Live-Preise und Feature-Daten

Vertriebs-Workflows referenzieren die aktuelle Preisseite und Feature-Vergleichstabellen. Bei Preisänderungen verwenden alle KI-generierten Angebote automatisch die neuen Zahlen.

Engineering: Dokumentationssynchronisation

Interne Wikis und Dokumentationsseiten werden zusammen mit öffentlicher Dokumentation gecrawlt. Ingenieure stellen Fragen in natürlicher Sprache und erhalten Antworten basierend auf der neuesten technischen Dokumentation.

Marketing: Content Intelligence

Crawlen Sie Ihren Blog und Ihre Landing Pages, um eine Content-Wissensdatenbank aufzubauen. KI-Workflows können beim Erstellen neuer Artikel auf bestehende Inhalte verweisen — für Konsistenz und zur Vermeidung doppelter Themen.

Plan-Limits

FunktionStarterTeamEnterprise
Max. Seiten pro Crawl1001.000Unbegrenzt
Crawl-HäufigkeitWöchentlichTäglichStündlich
JS-Rendering
Parallele Crawler2520
Ausschlussmuster310Unbegrenzt

Erste Schritte

  1. Gehen Sie zu Wissen → Quellen → Website hinzufügen
  2. Geben Sie Ihre Website-URL ein
  3. Prüfen Sie die Vor-Crawl-Schätzung
  4. Klicken Sie auf Crawl starten

Ihre Website wird in Minuten zu einer durchsuchbaren Wissensdatenbank. Alle Rezepte und Workflows können sie sofort für kontextbewusste KI-Antworten nutzen.

Website-Crawl einrichten →

Sehen Sie die Schritt-für-Schritt-Anleitung mit Screenshots.

knowledge-base website-crawl vector-search RAG automation
Diesen Artikel teilen

Hat Ihnen dieser Artikel gefallen?

Erhalten Sie Workflow-Tipps, Produktupdates und Automatisierungsleitfäden direkt in Ihren Posteingang.

No spam. Unsubscribe anytime.