Das Problem: Ihre Website weiß mehr als Ihre KI
Ihre Website ist die aktuellste Informationsquelle Ihres Unternehmens — Produktseiten, Preise, Dokumentation, Support-Artikel, Richtlinien und Blog-Beiträge. Aber Ihre KI-Workflows können auf nichts davon zugreifen.
Teams greifen zu Workarounds:
- Kopieren und Einfügen von Web-Inhalten in Dokumente, die sofort veraltet sind
- Manuelles Aktualisieren von FAQ-Datenbanken, wenn sich eine Produktseite ändert
- Parallele Systeme pflegen — eines für die Website, ein anderes für die KI-Wissensdatenbank
Das Ergebnis: Eine KI, die veraltete Antworten gibt, weil ihre Wissensdatenbank immer einen Schritt hinter der Website zurückliegt.
Die Lösung: Automatische Website-zu-Wissensdatenbank-Pipeline
JieGous Website-Crawl-Pipeline verwandelt Ihre gesamte Website automatisch in eine durchsuchbare KI-Wissensdatenbank. Richten Sie sie auf Ihre Sitemap, konfigurieren Sie ein paar Regeln — den Rest erledigt die Automatisierung.
So funktioniert es
1. Sitemap-Erkennung
Geben Sie Ihre Website-URL ein. JieGou ruft Ihre sitemap.xml ab, löst Sitemap-Indexdateien und verschachtelte Sitemaps auf und entdeckt alle indexierbaren Seiten. Ohne Sitemap startet die URL-basierte Erkennung von Ihrer Startseite.
2. Intelligente Filterung
Nicht jede Seite gehört in Ihre Wissensdatenbank. Konfigurieren Sie Ausschlussmuster (/admin/*, /staging/*, /tag/*) und Tiefenlimits zur Steuerung des Umfangs. Eine Vor-Crawl-Schätzung zeigt die genaue Seitenzahl und geschätzte Verarbeitungszeit.
3. Crawlen und Extrahieren
Seiten werden parallel mit konfigurierbarer Parallelität gecrawlt. Die Pipeline extrahiert sauberen Textinhalt — Navigation, Footer, Cookie-Banner und Boilerplate werden entfernt. Für JavaScript-gerenderte SPAs kann optional Headless Chromium aktiviert werden.
4. Chunking und Embedding
Inhalte werden mit überschriftsbasierter Aufteilung und Absatz-Fallback optimal segmentiert. Jeder Chunk erhält ein Vektor-Embedding über OpenAI text-embedding-3-small und wird direkt in Firestore gespeichert — keine externe Vektordatenbank erforderlich.
5. Inkrementelle Aktualisierung
Ein geplanter Re-Crawl prüft geänderte Seiten anhand von Content-Hashes. Nur tatsächlich geänderte Seiten werden erneut verarbeitet — das spart Rechen- und Embedding-Kosten. Ihre Wissensdatenbank bleibt ohne manuellen Eingriff aktuell.
6. Vektorsuche bereit
Ihre Wissensdatenbank ist sofort für alle Rezepte und Workflows verfügbar. Die Firestore-native Vektorsuche mit Redis-Caching liefert Sub-Sekunden-Abruf — selbst bei Tausenden von Seiten.
Warum integrierte Vektorsuche wichtig ist
Die meisten KI-Plattformen erfordern die Einrichtung und Verwaltung einer externen Vektordatenbank — Pinecone, Weaviate, Qdrant oder ChromaDB. Das bedeutet einen weiteren Service, einen weiteren API-Schlüssel, eine weitere Rechnung und einen weiteren Ausfallpunkt.
JieGous Vektorsuche ist in Firestore integriert:
- Null Infrastruktur — keine externe Vektor-DB bereitzustellen oder zu verwalten
- Hybride Suche — zuerst Vektor-Ähnlichkeitssuche, Brute-Force + Redis-Cache-Fallback für Grenzfälle
- Sub-Sekunden-Performance — Cold Queries über 700+ Dokumente in ~10 Sekunden; Warm Queries über Redis-Cache in unter 1 Sekunde
- Dokument-basiertes Caching — Redis 10-Minuten-TTL eliminiert redundante Embedding-Abfragen
Praxisbeispiele
Support: Immer aktuelle FAQ
Die Wissensdatenbank Ihres Support-Teams spiegelt automatisch die neueste Produktdokumentation wider. Wenn Sie einen Hilfeartikel auf Ihrer Website aktualisieren, wird er im nächsten Crawl-Zyklus synchronisiert — kein manueller Import.
Vertrieb: Live-Preise und Feature-Daten
Vertriebs-Workflows referenzieren die aktuelle Preisseite und Feature-Vergleichstabellen. Bei Preisänderungen verwenden alle KI-generierten Angebote automatisch die neuen Zahlen.
Engineering: Dokumentationssynchronisation
Interne Wikis und Dokumentationsseiten werden zusammen mit öffentlicher Dokumentation gecrawlt. Ingenieure stellen Fragen in natürlicher Sprache und erhalten Antworten basierend auf der neuesten technischen Dokumentation.
Marketing: Content Intelligence
Crawlen Sie Ihren Blog und Ihre Landing Pages, um eine Content-Wissensdatenbank aufzubauen. KI-Workflows können beim Erstellen neuer Artikel auf bestehende Inhalte verweisen — für Konsistenz und zur Vermeidung doppelter Themen.
Plan-Limits
| Funktion | Starter | Team | Enterprise |
|---|---|---|---|
| Max. Seiten pro Crawl | 100 | 1.000 | Unbegrenzt |
| Crawl-Häufigkeit | Wöchentlich | Täglich | Stündlich |
| JS-Rendering | — | ✓ | ✓ |
| Parallele Crawler | 2 | 5 | 20 |
| Ausschlussmuster | 3 | 10 | Unbegrenzt |
Erste Schritte
- Gehen Sie zu Wissen → Quellen → Website hinzufügen
- Geben Sie Ihre Website-URL ein
- Prüfen Sie die Vor-Crawl-Schätzung
- Klicken Sie auf Crawl starten
Ihre Website wird in Minuten zu einer durchsuchbaren Wissensdatenbank. Alle Rezepte und Workflows können sie sofort für kontextbewusste KI-Antworten nutzen.
Sehen Sie die Schritt-für-Schritt-Anleitung mit Screenshots.