INOSOFT Source Connector

Beschreibung des Source Connector

Der Source Connector ist ein innovatives Verbindungsmodul, das als modulares Systemkonzept für die Datenintegration entwickelt wurde.Sein Hauptzweck ist es, verschiedene externe Datenquellen modular zu verbinden und zu verarbeiten.

Architektur und Komponenten

Der Systemkern wird durch den Connector selbst gebildet, der die zentrale Konfiguration und Verwaltung vielfältiger Datenquellen ermöglicht. Zusammen mit der API steuert er den Datenfluss und die Systemverwaltung.

Die Benutzerinteraktion erfolgt über das Client Web, eine Benutzeroberfläche, die die interaktive Konfiguration und Überwachung der Quellen ermöglicht. Über das Client Web können diverse Source-Typen wie OneDrive, FileShare, SharePoint oder Veeva Vault eingerichtet werden. Module wie der Source Explorer und die Queue stehen für die Verwaltung und die Einsicht der gesammelten Daten bzw. Dokumente zur Verfügung.

Die tatsächliche Datensammlung wird von den Crawlern übernommen. Diese können generisch oder spezifisch je nach Source-Typ zur Verfügung gestellt werden. Mithilfe von Schedules können die Crawler zeitgesteuert und regelmäßig ausgeführt werden, um Dateien und Metadaten aus den definierten Datenquellen zu extrahieren.

Datenfluss und Speicherung

Datenquellen werden initial über das Client Web konfiguriert und definiert. Der Crawler sammelt die Dokumente. Die gesammelten Daten werden strukturiert in MongoDB gespeichert. Hierbei wird für jede Source eine entsprechende Collection angelegt, die die dazugehörigen Dokumente beinhaltet. Diese Dokumente können entweder aus reinen Metadaten oder aus Metadaten mit anhängiger Datei bestehen. MongoDB dient dabei als zentrale Basis für die weitere Datenanalyse und Transformation.

Verarbeitungspipeline

Nach der Speicherung durchlaufen die Daten eine Verarbeitungspipeline mit spezialisierten Worker-Komponenten:

Der Converter wandelt verschiedene Office-Dokumente in PDF-Dateien um
Der Annotator versieht diese PDF-Dateien mit Annotationen basierend auf definierten Kriterien
Der Text Extractor extrahiert Text aus dem PDF oder ruft Metadaten in Textform über eine API des Source Connectors ab, falls kein PDF vorhanden ist
Die AI-Komponente analysiert die Dokumente semantisch und zerlegt sie in kleinere Einheiten (Chunking)

Vorteile

Der Source Connector bietet durch seine Architektur eine modulare Skalierbarkeit, die einfache Erweiterungen durch neue Source-Typen und Komponenten ermöglicht. Die Automatisierung der Verarbeitung spart Zeit und Ressourcen bei der Datenintegration, und die gesamte Verarbeitung bildet die Grundlage für fortschrittliche KI-gestützte Analysen.