Verarbeitung und KI

Paperarchive verarbeitet jedes hochgeladene Dokument automatisch mit KI-gestützter Analyse.

Wie die Verarbeitung funktioniert

Dateityp und Größe werden validiert.
OCR extrahiert Text aus PDFs und Bildern.
Paperarchive erkennt Absender, Kategorie, Tags, Datum und Zusammenfassung.
Ähnlichkeitsabgleich verbindet verwandte Dokumente.

Ergebnisse mit geringer Treffsicherheit erzeugen Aktionshinweise auf dem Dokument, damit du sie prüfen und bestätigen kannst.

Duplikaterkennung

Paperarchive erkennt doppelte Uploads automatisch mittels SHA-256-Inhalts-Hashing. Beim Hochladen wird ein Hash auf deinem Gerät berechnet und auf dem Server verifiziert. Wenn derselbe Inhalt bereits in deinem Archiv existiert, wird der Upload übersprungen und du wirst benachrichtigt.

Für Beinahe-Duplikate (erneute Scans, umformatierte Versionen) nutzt Paperarchive Embedding-Ähnlichkeit, um Dokumente zu kennzeichnen, die bestehenden sehr ähnlich sind. Diese werden zur Überprüfung markiert, damit du entscheiden kannst, ob du sie behalten möchtest.

Die Duplikaterkennung funktioniert über alle Upload-Methoden: die App, die API und E-Mail-Weiterleitung.

Verarbeitungssprache

Wähle die Sprache, die am besten zu deinen Dokumenten passt. Das verbessert OCR und Extraktion. Die Anzeigesprache ist separat und betrifft nur die App-Oberfläche.

Was Paperarchive erkennt

Absender: das Unternehmen oder die Person, von der das Dokument stammt.
Kategorie: die Art des Dokuments (Rechnung, Vertrag usw.).
Tags: relevante Labels, die aus dem Inhalt extrahiert werden.
Datum: das Dokumentendatum (nicht das Upload-Datum).
Dateiname: ein sauberer, beschreibender Name basierend auf dem Inhalt und deinen Benennungseinstellungen.

Du kannst all das nach der Verarbeitung jederzeit bearbeiten.