Wednesday, 8 of September of 2010

Tag » Simplify your life

So digitalisiere ich mein Privatarchiv!

Das war aber lehrreich! Auf meine Frage (”Wie digitalisiere ich mein Privatarchiv?“) habe ich zwei gute Antworten bekommen:

  • von Holger Martens bei Digi-Texx Germany e.K., Lochhamer Str. 31, 82152 Planegg Martinsried (digi-texx-germany.de) und
  • von Andreas Müller bei Both & Müller GmbH, Thomas-Wimmer-Ring 14, 80538 München (www.both-mueller-gmbh.de)

Both & Müller befindet sich 149 Schritte vor meinem Haustür und somit konnte ich leicht ein Besuch erstatten. Dies war noch lehrreicher!

Gelernt habe ich grob gesehen folgendes:

  1. Es gibt zwei voneinander einigermaßen unabhängige Arbeitsschritte: Einscannen (automatisch) und Datenerfassung (manuell).
  2. Einscannen ergibt TIF-Dateien, PDF/A-Dokumente und (optional) Text-Dateien (aus OCR, d.h. Volltexterkennung)
  3. Datenerfassung ergibt Textdateien (CSV, Excel, ODS etc.)
  4. Nach dem Einscannen kann ich Platz sparen (da ich die Belege wegwerfen kann)
  5. Nach der Datenerfassung kann ich etwas über meine persönliche Finanzen lernen (da ich die Basisdaten in einem Tabellenkalkulationsprogramm hochrechnen kann)
  6. Die Kosten sind auch für Privatpersonen günstig:
    • Der Lagerplatz für Belege kostet zumindest im Münchner Innenstadt mehr als das Einscannen (2 bis 6 Cent/Beleg)
    • Die Einsichten, die ich aus der Auswertung meiner Finanzen gewinnen kann, spart leicht mehr als die Kosten der Datenerfassung

Auch auf meine genaueren Fragen habe ich gute Antworten bekommen:

1. Was muss ich noch wissen / angeben, bevor ich nach einem etwas genaueren Preis fragen kann?

  • Ob schwarzweiß oder farbig. Wenn Farbe nicht unbedingt erwünscht wird, ist schwarzweiß zu bevorzugen, weil platsparend.
  • In etwa wieviel der Belege zusammengeheftet, mit Klammern versehen, geknickt (Eselsohren) sind.

2. Wie erreiche ich es, dass die Dateinamen einigermassen sinnvoll werden? Ein Zettel pro Ordner, und danach werden die Dateien laufend nummeriert? Oder kann ich genauere Wünsche geben?

  • Durch Verschlagwortung bekomme ich sinnvolle Dateinamen: Ich kann pro Ordner (oder in Kopfbelegen von den Unterabteilungen, 1-10, 1-12, 1-20 usw) gewünschte Präfixe der Dateinamen geben.
  • Die Dateien können laufend nummeriert werden, oder zu etwas teureren Kosten auch mit Monaten (z.B. 200910) gekennzeichnet werden, die während der Verschlagwortung aus den Belegen manuell erfasst werden.

3. Wie kennzeichne ich es am besten, welche Papiere mit OCR behandelt werden sollen, und welche nicht?

  • Grundsätzlich: Kontoauszüge, Rechnungen und Belege sollen nicht automatisch erfasst werden. Es geht viel billiger manuell. Die Fehlerquote von automatischer Erkennung ist hoch. Vor allem ergeben aber gerade bei Kontoauszügen sogar fehlerfrei eingescannte Ergebnisdateien wenig Sinn: Die Frage “Wie hoch waren die Heizungskosten 2008?” kann ich sowieso viel schneller und leichter beantworten, wenn ich die Belege mit einem Ziffer (z.B. “104″, eine Art Konto wie aus der Buchhaltung) kennzeichne, welches dann zusammen mit Datum und Betrag manuell erfasst werden. Hierbei umgehe ich gleichzeitig das Problem, dass viele meiner Belege in Schwedisch oder Finnisch sind, welche als Sprachen für hiesige Datenerfassungskräfte eher unbegreiflich sind.

4. Woher weiß ich welche OCR-Dateien mit welchen PDF-Dateien zusammengehören?

  • Sie tragen denselben Namen (nur eine unterschiedliche Endung).

5. Wie genau (bzw wie fehlerhaft) sind die OCR-Dateien von Kontoauszügen? Wie leicht kommen die Daten in ein Tabellenkalkulationsprogramm rein? Kann das auch als Dienstleistung gemacht werden?

  • OCR-gescannte Kontoauszüge sind viel zu fehlerhaft. Wie oben erklärt: Die manuelle Mühe ist größer, wenn ich von OCR-Dateien anfange, als wenn die Daten ganz manuell eingegeben werden. Ja, es kann als Dienstleistung gemacht werden (weniger als 0,10 Euro pro Position finde ich sogar billig).

6. Bekomme ich vom Scan-Service auch auf Papier gedruckte PDF-Dateien (doppelseitig, zwei nebeneinander usw.), oder mache ich das am besten separat?

  • Nein, ich bekomme nur PDF-Dateien “pur”. Aber es lohnt nicht, die PDF-Dateien überhaupt zu drucken. Sinn des ganzen ist ja, Platz zu sparen. Die Belege können tatsächlich gutes Gewissens weggeschmissen werden! Mein Plan war ursprünglich, die Belege erst einscannen zu lassen und danach mit Kennzeichen (”Miete”, “Heizung” usw.) zu versehen — wobei ich dies vielleicht auf Kopien machen wollte. Da ich jetzt sowieso die Kontoauszüge nicht per OCR bearbeite, sondern manuell erfassen lasse, entfällt der Bedarf. Und für mich reicht jetzt die PDF-Datei auf der Festplatte, kombiniert mit der viel sinnvolleren Datei mit den erfassten Beträgen.

7. Was macht der Scan-Service mit zusammengehefteten Papieren?

  • Auseinanderheften, es sei denn, es ist aus legalen Gründen nicht möglich oder sonst nicht erwünscht — wobei aber das Einscannen viel teurer wird.

8. Wie lange dauert die Lieferung?

  • Nicht lange. Tage oder wenige Wochen.

9. Welche Auflösung bzw welches Format ist sinnvoll? Ist es möglich / kostengünstig / sinnvoll die Dateien erstmal farbig in einer großen Auflösung einzuscannen, und dann einem Programm eine komprimierte Version der dicken Dateien machen zu lassen (geringere Auflösung, schwarzweiß)?

  • Für OCR/Volltexterkennung: 300 dpi schwarzweiß, TIF.
  • Für Belege / Archivierung: 200 dpi schwarzweiß, (TIF und) PDF/A.
  • Farbig und schwarzweiß ist wenig sinnvoll weil teuer.

10. Was müsste ich eigentlich noch fragen bzw. berücksichtigen, was ich selbst als Laie nicht verstehe?

  • Ziffern für die Dateneingabe sinnvoll zu erteilen (123 = Heizung, 124 = Strom usw.)
  • Ziffern sind wesentlich schneller einzutippen als Buchstaben (und dadurch billiger)

Mein Archiv zu ordnen ist eine lästige Aufgabe. Aber komischerweise freue ich mich jetzt darauf! Etwas Lästiges ist jetzt zu etwas Angenehmem umwandelt worden.

Fußnote: Damit entspricht das Digitalisieren meines Privatarchives meinem Neujahrsvorsatz Nummer 6 (Umwandle lästige oder unangenehme Arbeit in ertragbare oder sogar angenehme Aufgaben!). Es hat aber auch mit mindestens fünf anderen Neujahrsvorsätzen zu tun:

1. Die Macht der Gewohnheit ist groß: Beginne regelmäßig mit einer neuen guten Gewohnheit an! (Aufräumen der Belege)
4. Lebe wie du lehrst: Lege Quartalsziele auch im Privatleben fest! (Digitalisieren ist eins dieser Ziele)
7. Bitte erfahrene Leute um Hilfe! (Die genannten Firmen erscheinen mir erfahren)
8. Siehe zu, dass wichtige Sachen auch dringend erscheinen! (Ich muss mich jetzt dringend um das Angebot von Both & Müller kümmern)
9. Ästhetische Werte sind ansprechend: Umgebe dich mit Schönheit, Unkompliziertheit und Ordnung! (Ja, ich räume auf und werfe weg)

Erledigt ist die Aufgabe natürlich noch nicht. Also, ran an die Arbeit!


Wie digitalisiere ich mein Privatarchiv?

In meinem Arbeitszimmer habe ich 43 DIN-A4-Ordner. Ich möchte mehr als die Hälfte loswerden, ohne die Daten zu verlieren. Und ich möchte besonders die finanziellen Daten sinnvoll zusammenfassen können, indem ich Kontoauszüge zu Tabellen verwandeln lasse. Ich will Einträge in den digitalisierten Kontoauszügen mit Kennzeichnen versehen, damit ich “Miete”, “Zinsen”, “Heizung”, “Reisen” usw hochrechnen kann. Wie mache ich das, mit dem geringsten Aufwand und zu vernünftigen Kosten?

Ich habe Dokumente folgender Art:

  1. Normale Kontoauszüge in DIN A4-Format
  2. Wahnsinnige Postbank-Kontoauszüge in etwa 1/3 A4
  3. Kreditkartenrechnungen in DIN A4
  4. Verschiedene A4-Papiere, nicht zusammengeheftet
  5. Verschiedene A4-Papiere, zusammengeheftet
  6. Papiere in verschiedenen Größen, zusammengeheftet

Ich habe einen Scanner “hp scanjet 5590“, mit dem ich sehr unzufrieden bin:

  • Papiere bleiben oft stecken
  • Die Benutzeroberfläche vom Scan-Programm (OS X) ist schlecht
  • Die Helligkeit lässt sich nicht leicht beeinflussen
  • Das Endergebnis ist oft schräg (3-4 Grad)

Von daher möchte ich die Dokumente als Dienstleistung einscannen lassen. Mit meinen etwa 5000 Fotonegative habe ich schon gute Erfahrungen gemacht: Scandig in Unterhaching hat schon 2004-05 das Einscannen, ohne großen Zeitaufwand für mich, und zwar zu sinnvollen Kosten.

Im Gegensatz zum Digitalisieren von Fotos ist das gewünschte Endergebnis beim Archiv scannen nicht genauso eindeutig. Für die Fotos waren meine Ziele

  • möglichst hohe Auflösung (jedoch nicht höher als das analoge Original)
  • .jpg-Format
  • geringe Kosten
  • sinnvolle Dateinamen, die Ordnung fördern

Für das Archiv sind meine Ziele für Dokumente vom Typ Kontoauszug

  1. das Komprimieren vom Platzbedarf in gedruckter Form (sechs dicke Postbank-Kontoauszugsbelege sollen von einer doppelseitigen DIN A4-Seite ersetzt werden; normale A4-Kontoauszüge können nebeneinander doppelseitig gedruckt werden, und damit auch Platz sparen)
  2. die einfache Eingabe in ein Tabellenkalkulationsprogramm (eine Zeile soll jeweils die Felder/Zellen Datum, Betrag, Text haben)
  3. sinnvolle Dateinamen, die Ordnung fördern
  4. die Auflösung ist recht egal; Farbe darf auch verloren gehen
  5. das Format sowohl PDF (oder PDF/A), als auch das digitalisierte Endergebnis vom OCR-Verfahren, als Eingabe für weitere Bearbeitung
  6. und das alles natürlich zu vernünftigen Kosten.

Für für sonstige Dokumente (nicht Kontoauszüge) sind meine Ziele

  1. das Komprimieren vom Platzbedarf (wie oben)
  2. sinnvolle Dateinamen, die Ordnung fördern (wie oben)
  3. etwas höhere Auflösung
  4. manchmal kann das Erhalten der Farben auch von Bedeutung sein
  5. OCR-Verfahren optional, also nur wenn es kostengünstig ist

Mein Archiv befindet sich im Münchner Innenstadt. Da die Papiere wichtig sind, möchte ich sie nicht für besonders lange Zeit loswerden. Im Großraum München würde ich die Papiere bei Bedarf sogar persönlich zum Scan-Service begleiten.

Meine Fragen:

  1. Was muss ich noch wissen / angeben, bevor ich nach einem etwas genaueren Preis fragen kann?
  2. Wie erreiche ich es, dass die Dateinamen einigermassen sinnvoll werden? Ein Post-It-Zettel mit dem Wunschnamen pro Ordner, und danach werden die Dateien laufend nummeriert? Oder kann ich genauere Wünsche geben?
  3. Wie kennzeichne ich es am besten, welche Papiere mit OCR behandelt werden sollen, und welche nicht?
  4. Woher weiß ich welche OCR-Dateien mit welchen PDF-Dateien zusammengehören?
  5. Wie genau (bzw wie fehlerhaft) sind die OCR-Dateien von Kontoauszügen? Wie leicht kommen die Daten in ein Tabellenkalkulationsprogramm rein? Kann das auch als Dienstleistung gemacht werden?
  6. Bekomme ich vom Scan-Service auch auf Papier gedruckte PDF-Dateien (doppelseitig, zwei nebeneinander usw.), oder mache ich das am besten separat?
  7. Was macht der Scan-Service mit zusammengehefteten Papieren?
  8. Wie lange dauert die Lieferung?
  9. Welche Auflösung bzw welches Format ist sinnvoll? Ist es möglich / kostengünstig / sinnvoll die Dateien erstmal farbig in einer großen Auflösung einzuscannen, und dann einem Programm eine komprimierte Version als Kopie der dicken Dateien machen zu lassen (geringere Auflösung, schwarzweiß)?
  10. Was müsste ich eigentlich noch fragen bzw. berücksichtigen, was ich selbst als Laie nicht verstehe?

Antwort als Blog-Kommentar oder als Email an kaj at arno punkt fi!