Unterstützte Inhaltstypen
itellicoAI unterstützt vier Typen von Wissenseinträgen, die jeweils für unterschiedliche Inhaltsquellen und Anwendungsfälle konzipiert sind. Das Verständnis der Funktionsweise jedes Typs hilft dir, das richtige Format für deine Informationen zu wählen. Hinweise zur Organisation dieser Einträge findest du unter Wissensdatenbank-Architektur.Text-Items
Inhalt direkt über den integrierten Editor eingeben
Datei-Uploads
PDF-, Word-, Excel-, Text-, Markdown-, CSV-, JSON-, YAML- und XML-Dateien bis 10 MB hochladen
URL-Scraping
Inhalt von einer einzelnen Webseite abrufen
Website-Crawl
Mehrere Seiten einer öffentlichen Website entdecken und importieren
Text-Items
Was sind Text-Items?
Text-Items sind Inhalte, die du direkt in den itellicoAI-Wissensdatenbank-Editor eingibst. Sie sind der unkomplizierteste und zuverlässigste Inhaltstyp – sofort verfügbar ohne Verarbeitungsverzögerung.Wie du ein Text-Item hinzufügst
Inhalt schreiben
Gib deinen Inhalt in den Editor ein. Nutze Formatierung für mehr Klarheit:
- Überschriften für Abschnitte
- Aufzählungspunkte für Listen
- Nummern für Schrittfolgen
- Fettschrift für Hervorhebungen
Best Practices
Für Retrieval strukturieren
Schreibe Inhalt in klaren, in sich geschlossenen Abschnitten. Jeder Abschnitt sollte eine spezifische Frage beantworten, damit RAG (Retrieval-Augmented Generation) fokussierte Ergebnisse zurückgibt.
Beschreibende Titel verwenden
Verbessere Organisation und Retrieval-Genauigkeit mit klaren Namen wie “Rückgaberichtlinie – Digitale Produkte” statt “Richtlinie 4”.
Wann du Text-Items nutzen solltest
FAQs schreiben
FAQs schreiben
Erstelle Frage-und-Antwort-Paare direkt im System.Beispiel:
Richtlinien zusammenfassen
Richtlinien zusammenfassen
Schreibe klare, prägnante Richtlinienaussagen.Beispiel:
Abläufe dokumentieren
Abläufe dokumentieren
Schritt-für-Schritt-Anweisungen für Prozesse.Beispiel:
Schnellreferenz-Informationen
Schnellreferenz-Informationen
Kurze, häufig benötigte Informationen.Beispiel:
Einschränkungen
- Keine Dateianhänge möglich – Inhalt muss getippt oder eingefügt werden
- Große Inhaltsmengen lassen sich besser als Datei-Uploads verwalten
Datei-Upload-Items
Was sind Datei-Upload-Items?
Datei-Upload-Items ermöglichen das Hochladen bestehender Dokumente in verschiedenen Formaten. Das System extrahiert den Textinhalt und stellt ihn deinen Agenten zur Verfügung.Wie du ein Datei-Item hinzufügst
Verarbeitungsdetails
Das System verwendet fortschrittliche Dokumentenanalyse, um Text aus hochgeladenen Dateien zu extrahieren:- Textextraktion – Bei textbasierten PDFs und Word-Dokumenten wird der Inhalt direkt extrahiert
- OCR (Optical Character Recognition) – Technologie, die Text aus gescannten Bildern liest – Die Plattform verarbeitet gescannte Dokumente und Bilder in PDFs mit OCR
- Chunking – Extrahierter Inhalt wird in Chunks für die Vektorindexierung aufgeteilt (Inhalt für semantische Suche vorbereiten), um Retrieval zu ermöglichen
- Formate: PDF, Word (.doc, .docx), Excel (.xlsx), Text (.txt, .log), Markdown (.md), CSV/TSV (Datenformate), JSON (Datenformate), YAML (.yaml, .yml) (Datenformate), XML (Datenformate)
- Größenlimit: maximal 10 MB
- Inhalt: Textbasierte Dokumente und gescannte Bilder (erweiterte Analyse verarbeitet die meisten Scans)
- Schutz: Kein Passwortschutz
Best Practices
Vor dem Upload optimieren
- Große Dateien komprimieren
- Unnötige Bilder entfernen
- Wenn möglich, textbasierte Dokumente verwenden
- Unter 5 MB halten für schnellere Verarbeitung
Extraktion testen
- Extrahierten Inhalt nach der Verarbeitung prüfen
- Auf Formatierungsprobleme achten
- Korrektheit kritischer Informationen verifizieren
- Bei schlechter Extraktion neu hochladen
Einschränkungen
- Maximale Dateigröße von 10 MB
- Passwortgeschützte Dateien können nicht verarbeitet werden
- Sehr schlechte Scans können unvollständigen oder ungenauen Text erzeugen
- Komplexe Layouts (mehrspaltig, aufwendige Tabellen) werden möglicherweise nicht perfekt extrahiert – extrahierten Inhalt prüfen und bei Bedarf in Text-Items umwandeln
Fehlerbehebung
Verarbeitung fehlgeschlagen
Verarbeitung fehlgeschlagen
Ursachen:
- Datei überschreitet 10 MB
- Datei ist passwortgeschützt
- Datei ist beschädigt
- Sehr schlechte Qualität gescannter Bilder
- Datei komprimieren oder in kleinere Dateien aufteilen
- Passwortschutz entfernen
- Datei aus der Quelle neu exportieren
- Bei sehr schlechten Scans Inhalt in ein Text-Item kopieren
Inhalt falsch extrahiert
Inhalt falsch extrahiert
Ursachen:
- Komplexe Layouts (mehrspaltiger Satz, Tabellen)
- Sehr schlechte Qualität gescannter Bilder
- Spezielle Schriftarten oder Zeichenkodierungen
- Formularfelder und interaktive Elemente
- Extrahierten Inhalt im Bearbeitungsmodus prüfen
- Als Text-Item mit korrekter Formatierung neu erstellen
- Dokumentenlayout vor dem Hochladen vereinfachen
- Als reines Textdokument exportieren
Verarbeitung dauert zu lang
Verarbeitung dauert zu lang
Vorgehen:
- 5–10 Minuten warten, bevor ein Fehler angenommen wird
- Dateigröße und Seitenanzahl prüfen
- Für große Dateien in mehrere Dateien aufteilen
- In Text konvertieren und als TEXT-Items hochladen
URL-Items
Was sind URL-Items?
URL-Items scrapen den Inhalt einer einzelnen Webseite und speichern ihn in deiner Wissensdatenbank. Das ist nützlich, um auf eine bestimmte Online-Dokumentationsseite, einen Hilfe-Artikel oder einen Blog-Beitrag zu verweisen.Wie du ein URL-Item hinzufügst
Verarbeitungsdetails
Wenn du ein URL-Item hinzufügst, führt das System folgendes durch:- Abrufen der Seite unter der angegebenen URL
- Extrahieren des Haupttextinhalts, wobei Navigation, Werbung und Boilerplate entfernt werden
- Speichern des extrahierten Texts als Inhalt des Wissenseintrags
- Indexieren des Inhalts für die Vektorsuche, genau wie bei Text- und Datei-Items
Best Practices
Erreichbarkeit prüfen
- URL zuerst im Inkognito-Fenster öffnen
- Prüfen, ob kein Login erforderlich ist
- Sicherstellen, dass Inhalt ohne JavaScript sichtbar ist
- Sicherstellen, dass die Seite schnell lädt
Gescrapten Inhalt prüfen
- Inhalt nach dem Scraping prüfen
- Verifizieren, dass der richtige Inhalt erfasst wurde
- Auf Formatierungsprobleme achten
- Sicherstellen, dass kein Zusatzinhalt (Werbung, Seitenleisten) aufgenommen wurde
Einschränkungen
- Authentifizierung – Seiten mit Login-Anforderung können nicht gescrapt werden
- JavaScript-intensive Seiten – Single-Page-Applications und dynamisch geladener Inhalt werden möglicherweise nicht erfasst
- Bezahlschranken – Inhalt hinter Paywalls ist nicht zugänglich
- Kein automatisches Aktualisieren – Inhalt wird einmalig gescrapt; das Item muss neu erstellt werden, um es zu aktualisieren
- robots.txt (eine Datei, mit der Websites den automatisierten Zugriff steuern) – Websites, die Scraping blockieren, schlagen fehl
URL-Scraping funktioniert am besten mit einfachen, textbasierten Webseiten. Wenn das Scraping fehlschlägt oder unvollständigen Inhalt liefert, kopiere den Inhalt stattdessen manuell in ein Text-Item.
Fehlerbehebung
Scraping fehlgeschlagen
Scraping fehlgeschlagen
Ursachen:
- Seite erfordert Login/Authentifizierung
- URL ist falsch oder defekt
- Inhalt wird per JavaScript geladen
- Website blockiert Scraping (robots.txt)
- Seite existiert nicht (404)
- Prüfen, ob URL öffentlich zugänglich ist
- URL im Inkognito-Browserfenster testen
- Prüfen, ob URL vollständig und korrekt ist
- Inhalt manuell in Text-Item kopieren
- Seite stattdessen als PDF exportieren und hochladen
Inhalt unvollständig oder falsch
Inhalt unvollständig oder falsch
Ursachen:
- JavaScript-gerenderter Inhalt nicht erfasst
- Dynamisch geladener Inhalt
- Mehrere Tabs/Abschnitte auf der Seite
- Kommentare oder Seitenleisten statt Hauptinhalt gescrapt
- Gescrapten Inhalt im Bearbeitungsmodus prüfen
- Direkte URL zu einem bestimmten Inhaltsabschnitt verwenden
- Gewünschten Inhalt in Text-Item kopieren
- Seite als PDF exportieren und stattdessen hochladen
Inhalt veraltet
Inhalt veraltet
Lösung:
Einzelseiten-URL-Inhalt wird einmalig bei der Erstellung gescrapt. Zum Aktualisieren:
- URL-Item löschen und neu erstellen
- Oder aktuellen Inhalt in ein Text-Item kopieren für manuelle Aktualisierungen
- Manuelle Text-Items, die du regelmäßig aktualisierst
- PDF-Exporte, die du regelmäßig aktualisierst
Website-Crawl-Items
Was sind Website-Crawl-Items?
Website-Crawl-Items entdecken mehrere öffentliche Seiten einer Website und importieren die von dir ausgewählten Seiten. Verwende diesen Typ, wenn eine Wissensquelle mehrere URLs umfasst, wie etwa ein Help Center oder eine Dokumentations-Website.Wie du einen Website-Crawl hinzufügst
Crawl-Einstellungen
Öffne Erweiterte Optionen vor der Entdeckung, um den Crawl-Umfang und das Aktualisierungsverhalten zu steuern.| UI-Einstellung | Standard | Was sie steuert | Wann ändern |
|---|---|---|---|
| Max pages to discover | 100 | Die maximale Anzahl von URLs, die von der Startseite entdeckt werden. Verfügbare Werte sind 25, 50, 100, 250 und 500. Dies begrenzt nur die Entdeckung; du wählst weiterhin selbst aus, welche entdeckten Seiten importiert werden. | Verringern für kleine Websites oder schnelle Tests. Erhöhen für größere Help Center oder Dokumentations-Websites. |
| Auto-refresh interval | Never | Wie oft das System bereits importierte Seiten neu synchronisiert. Optionen sind Never, Every 24 hours, Every 7 days und Every 30 days. | Every 7 days oder Every 30 days für öffentliche Dokumentationen, Preisseiten, Richtlinien oder Help-Center-Seiten verwenden, die sich im Laufe der Zeit ändern. |
| Include subdomains | Aus | Ob bei der Entdeckung auch Seiten unter Subdomains des Starthosts berücksichtigt werden. Bei Start von docs.example.com sind damit Hosts wie api.docs.example.com erlaubt; Geschwister-Domains wie help.example.com sind nicht eingeschlossen. | Nur aktivieren, wenn die zu importierende Website auf mehrere Subdomains desselben Hosts verteilt ist. |
| Neue Seiten bei Aktualisierung erkennen | Aus, ausgeblendet wenn das Aktualisierungsintervall auf Nie steht | Wenn Aktualisieren aktiviert ist, kann das System die Entdeckung erneut ausführen und neu gefundene Seiten zur Prüfung bereitstellen. Neu entdeckte Seiten werden nicht automatisch eingeschlossen. | Aktivieren, wenn die Website regelmäßig neue Seiten hinzufügt und du diese über Seiten anzeigen prüfen möchtest. |
Einschränkungen
- Öffentliche Seiten funktionieren am besten; authentifizierungspflichtige Seiten werden nicht unterstützt
- JavaScript-intensive Seiten werden möglicherweise nicht sauber extrahiert
- Crawls zählen zum Wissensdatenbank-Limit für URL-/Website-Items
- Importierte Seiten müssen zunächst die Inhaltsverarbeitung und Vektorindexierung erfolgreich abschließen, bevor RAG sie abrufen kann
Verarbeitungs-Status-Flow
Wissenseinträge durchlaufen zwei separate Verarbeitungs-Pipelines:- Inhaltsverarbeitung – Text aus Dateien, URLs und Website-Seiten extrahieren
- Vektorindexierung – Inhalt für RAG (semantische Suche) vorbereiten
Verarbeitungsstatus
Orange bedeutet, dass das Item noch verarbeitet wird. Grün bedeutet, es ist einsatzbereit. Wenn ein Item einen Fehler anzeigt, klicke auf Reindex, um es erneut zu versuchen.Den richtigen Inhaltstyp wählen
| Deine Situation | Bester Inhaltstyp |
|---|---|
| FAQs von Grund auf schreiben | TEXT |
| Vorhandene Word-/PDF-Dokumente unter 10 MB | FILE |
| Dokumente über 10 MB | In kleinere Dateien aufteilen oder in TEXT extrahieren |
| Eine einzelne öffentliche Webseite | URL (mit TEXT als Backup) |
| Mehrseitige öffentliche Dokumentation oder Help Center | Website-Crawl |
| Private/authentifizierungspflichtige Inhalte | In TEXT kopieren |
| Sofortige Verfügbarkeit benötigt | TEXT (keine Verarbeitungsverzögerung) |
| Komplexe Formatierung ist wichtig | FILE |
Nächste Schritte
Kontext vs. RAG
Erfahre, wie Agenten auf deine Wissensinhalte zugreifen
Wissensdatenbanken erstellen
Schritt-für-Schritt-Anleitung zur Erstellung folgen
Architektur-Übersicht
Struktur der Wissensdatenbank verstehen
Template-Syntax
Wissen im Agenten-Prompt referenzieren