coilDNA
Industrial High Speed Cloud OCR
Description
Jan Wagner von coilDNA zeigt in seinem devjobs.at TechTalk den Lösungsansatz zur Optical Character Recognition, mit welchem es möglich ist Metallbleche mit zusätzlichen Informationen zu versehen.
Beim Videoaufruf stimmst Du der Datenübermittlung an YouTube und der Datenschutzerklärung zu.
Video Zusammenfassung
In Industrial High Speed Cloud OCR zeigt Speaker Jan Wagner von coilDNA, wie auf Aluminium-Coils verteilte Dot-Matrix-Codes zur fälschungssicheren Rückverfolgbarkeit genutzt werden. Er erläutert eine Cloud-OCR-Pipeline mit Bildaufnahme (Fixkamera oder Browser-Web-App), Vorverarbeitung (Grayscale, Orientierung, Edge Detection), Erkennung via Azure Cognitive Services sowie format- und plausibilitätsbasierter Korrektur typischer Fehllesungen (z. B. B vs. A8), gefolgt vom Daten-Lookup für Positions-, Qualitäts- und Produktionsdaten. Demos vergleichen fixe Kameras mit definierter 5×7-Fontbeschreibung mit mobilem Scannen auf reflektierenden Oberflächen, und als nächster Schritt wird ein ML-Modell zur robusteren Erkennung angestrebt.
Industrial High Speed Cloud OCR in der Metallproduktion: Vom Dot‑Matrix‑Code auf dem Aluminiumcoil zur verlässlichen Datenrückführung
Kontext: Warum Industrial High Speed Cloud OCR?
Im Tech Talk „Industrial High Speed Cloud OCR“ mit Jan Wagner (Softwareentwickler, coilDNA) stand ein sehr konkretes industrielles Problem im Mittelpunkt: Wie lassen sich auf Aluminiumcoils aufgedruckte Dot‑Matrix‑Codes robust, schnell und fälschungssicher lesen – und zwar sowohl direkt an der Produktionslinie als auch mobil via Browser? Die Antwort führt durch eine klare Verarbeitungspipeline aus Bildaufnahme, gezielter Bildvorverarbeitung, Cloud‑basierter Zeichenerkennung und validierter Codeinterpretation.
Der geschilderte Use Case ist praxisnah: coilDNA druckt entlang eines gesamten Aluminiumcoils einen verteilten Code. Jede Teilsequenz dieses Codes enthält Informationen über den Coil – etwa Produzent und Material – und lässt sich zu einem größeren Datenfragment zusammensetzen. Das System unterstützt damit lückenlose Rückverfolgbarkeit bis hinunter auf das konkrete Coil‑Segment. Gleichzeitig erhöht der Ansatz die Fälschungssicherheit und sichert Qualitäts- und Positionsinformationen über die gesamte Länge.
„Unsere Idee war, auf einem Aluminiumcoil einen Code aufzudrucken … jede Sequenz von diesem Code kann man wieder zu einem ganzen Fragment zusammenfügen – und jede Sequenz enthält Informationen zu diesem Coil.“
Aus Sicht der Software‑ und Produktionsingenieur:innen ist das Spannende: Der Code ist in Dot‑Matrix‑Schrift auf Metalloberflächen aufgebracht – eine herausfordernde Kombination für OCR. Reflexionen, wechselnde Belichtung, Geometrie der Teile, rotierte Ausrichtung und die Eigenheiten der Punktmatrix-Schrift führen zu häufigen Lesefehlern. Der Talk zeigte, wie coilDNA diese Hürden in einer Cloud‑gestützten Pipeline angeht.
Die DNA‑Analogie: Verteilte Codes auf Coils
Wagner nutzt eine DNA‑Analogie, um das Prinzip greifbar zu machen: Ein Coil trägt über seine Länge hinweg fortlaufend aufgedruckte Codefragmente. Jede einzelne Teilsequenz enthält hinreichende Information, um auf das Gesamtfragment bzw. den Coil zu schließen. Damit wird jeder Abschnitt eindeutig identifizierbar – mitsamt seiner Position auf dem Gesamtcoil und den passenden Qualitätsdaten.
Vorteile des Ansatzes:
- Rückverfolgbarkeit: Daten sind der exakten Position am Coil zugeordnet.
- Qualitätsbezug: Qualitätsdaten lassen sich gezielt pro Segment abrufen.
- Fälschungssicherheit: Der Code macht den Ursprung des Materials verifizierbar.
„Ich bekomme die Daten genau zu der Position auf dem Gesamt‑Coil, ich bekomme die Qualitätsdaten zu diesem Teil … Hauptgrund ist natürlich auch Fälschungssicherheit.“
Vom Bild zum Datensatz: Die Pipeline im Überblick
Der Weg „Bild → lesbarer Code → Daten“ verläuft in mehreren Stationen:
- Bildaufnahme
- Fix installierte Kameras an der Produktionsmaschine mit stabilen Parametern.
- Mobile Erfassung via Web‑App im Browser über das Media Devices Interface.
- Bildvorverarbeitung
- Umwandlung in Graustufen.
- Korrektur der Ausrichtung (Rotation, wenn der Code „auf dem Kopf steht“).
- Kantenerkennung, um die Zeichenstruktur zu betonen.
- Cloud‑OCR
- Erkennung der Zeichen in der Cloud mit Azure (Microsoft Vision aus Azure Cognitive Services).
- Post‑Processing und Formatvalidierung
- Normalisierung des gelesenen Codes auf erwartetes Format (12 Zeichen plus 2 Buchstaben).
- Ausmerzen typischer Verwechslungen in der Dot‑Matrix‑Schrift (z. B. „B“ vs. „A8“).
- Datenausgabe
- API‑basierter Lookup in den coilDNA‑Webservices/Datenbanken für Produktions-, Qualitäts- und Positionsdaten.
Diese Kette ist kein akademisches Ideal, sondern notwendig, weil rohe Kameraaufnahmen die OCR häufig „blind“ machen. Lichtreflexe, Oberflächenartefakte und die Punktmatrix erschweren die Zeichenextraktion – ohne Vorverarbeitung geht vielfach nichts.
„Wenn ich das Originalbild in die Cloud schicke … kriege ich nichts raus … auf dem unteren Beispiel habe ich einen Code erkannt nach der Bildbearbeitung.“
Bildaufnahme: Fixe Kameras vs. mobile Web‑App
Wagner stellt zwei Erfassungsmodi gegenüber, die unterschiedliche technische Anforderungen mit sich bringen.
1) Fixe Kameras an der Maschine
- Vorteil: konstante, kontrollierte Rahmenbedingungen (Belichtung, Distanz, Winkel, Blende, Fokus, Triggerzeitpunkt).
- Fontspezifika: Die Dot‑Matrix‑Schrift lässt sich parameterisiert hinterlegen. Wagner zeigt das Prinzip eines 5×7‑Fonts, der in einer Textdatei Buchstabenraster definiert. Alternativ wäre eine programmatische Definition in einem Array möglich.
- Wirkung: Die Kamera „kennt“ die Schrift und ihre Punkte‑Topologie, was die Erkennung bei fixen Parametern erheblich vereinfacht.
„Ich habe nur dieses Text‑File … ich definiere jeden Buchstaben, jede Ziffer … und die Kamera kennt das dann.“
2) Mobile Erfassung via Web‑App (Browser)
- Zugriff: Über das Media Devices Interface greift die Web‑App auf die Kamera zu – nach expliziter Nutzerfreigabe.
- Nutzung: Mitarbeitende (z. B. im Werk, bei Automotive‑Partnern) scannen Codes „ad hoc“.
- Herausforderung: Deutlich variablere Parameter (Handbewegung, Blickwinkel, Entfernung, Licht), dadurch schwankende Bildqualität.
- Vorteil: Niedrige Hürde – kein App‑Install, unmittelbare Erkennung und Datenabfrage über den Browser.
Wichtig ist: Der mobile Modus braucht eine robuste Vorverarbeitung, um die Variabilität zu kompensieren. Sonst verstopft die OCR mit Blendungen und schwachen Kontrasten.
Vorverarbeitung: Graustufen, Ausrichtung, Kanten
Die Dot‑Matrix‑Schrift verstärkt Artefakte: Einzelne Punkte verschmelzen bei Glanz, Rauschen oder Unschärfe; Kanten fransen aus; die Zeilenstruktur kippt. Der Talk betont drei Schritte:
- Graustufen: Entfernt Farbdimensionen, stabilisiert Kontraste für Kante und Segmentierung.
- Orientierung: Drehen/Normalisieren, wenn der Code „kopfstehend“ aufgenommen wurde.
- Kantenerkennung: Hebt Kanten der Punkte hervor, was der Zeichensegmentierung Vorschub leistet.
„Ich muss das Bild dementsprechend bearbeiten … in Grayscale umwandeln, Orientation … und Edge Detection.“
Diese Minimalpipeline ist die Basis, um Microsoft Vision mit einer „bereinigten“ Darstellung zu füttern. Ohne das landet die OCR bei spiegelnden Metalloberflächen schnell im Nirwana.
Cloud‑OCR: Azure Cognitive Services (Microsoft Vision)
Die Zeichenerkennung läuft bei coilDNA Cloud‑basiert auf Azure. Genannt wird explizit Microsoft Vision aus Azure Cognitive Services. Damit trennt coilDNA Erfassung und Erkennung – die Bildakquise passiert lokal, die Buchstaben‑/Ziffernextraktion zentralisiert in der Cloud.
Das ist besonders sinnvoll, wenn:
- die Produktionslinie verlässliches Netzwerk bereitstellt,
- die Skalierung dynamisch sein soll (Spitzenlasten, mehrere Linien/Standorte),
- mobile Browser‑Clients minimale lokale Logik behalten sollen.
Trotz Cloud‑OCR steht und fällt die Erkennungsqualität mit der Vorverarbeitung. Der Talk zeigt, wie ein unbearbeitetes, spiegelndes Bild „nichts“ liefert, während die aufbereitete Variante die Zeichenerkennung ermöglicht.
Post‑Processing: Formatwissen schlägt OCR‑Unsicherheit
Ein zentrales Praxisdetail ist die Formatvalidierung. Der coilDNA‑Code hat eine feste Struktur:
„Unser Code hat 12 Zeichen plus 2 Buchstaben …“
Diese Erwartung lässt sich nutzen, um typische OCR‑Fehler zu korrigieren. Wagner nennt ein klassisches Beispiel:
„B wird manchmal als A8 erkannt … wenn A B z. B. ist, dann kann es nicht A8 sein, sondern dann muss es A B sein.“
Heißt: Domänenwissen über erlaubte Buchstabenkombinationen dient als Korrekturschlüssel. Das reduziert False Positives ohne zusätzliche Bildverarbeitung. Die Kombination aus Cloud‑OCR, Formatwissen und Fehlerregeln macht den Unterschied zwischen „Raten“ und „verlässlicher Erkennung“.
Warum solche Fehler passieren
- Dot‑Matrix‑Punkte lassen Rundungen und Balken nur approximativ erscheinen.
- Glanz/Licht erzeugt „Pseudo‑Pixel“, die wie Ziffern-Kernelemente wirken.
- Nähe/Entfernung variieren die Punktgröße relativ zur Rasterdichte.
Die Lehre: Zeichenerkennung braucht im industriellen Kontext stets semantische Leitplanken (Länge, erlaubte Zeichen, zulässige Präfixe/Suffixe).
Datenrückführung per API: Vom Code zur Historie
Ist der Code korrekt extrahiert und formatiert, folgt der Lookup über coilDNAs Web‑Services auf die Datenbank. Der Talk demonstriert die Ergebnisdaten, u. a.:
- Erfassungs‑/Ausgabezeitpunkt des Codes.
- Zeitpunkt des Drucks auf den Coil.
- Position am Coil (z. B. betreffender Meter).
- Gesamtlänge des Coils.
- Name der bearbeitenden Person.
„Lookup‑Code und man bekommt dann die Daten … wann ist der Code erfasst worden … wann ist er auf den Coil gedruckt worden … bei welchem Meter ist der Code … wie lang ist der Coil … und den Namen von dem Bearbeiter.“
Diese Verknüpfung schließt den Kreis: Ein Edge‑Bild wird zu einer strukturierten Datenabfrage mit unmittelbarem Produktionsbezug.
Demo‑Eindrücke: Warum es manchmal nicht klappt
Wagner zeigt anschaulich: Es gibt Aufnahmen, bei denen trotz Cloud‑OCR „nichts“ gelesen werden kann – etwa wenn Spiegelungen überwiegen oder die Oberfläche zu unruhig ist. Mit Vorverarbeitung (Graustufen, Ausrichtung, Kanten) verbessert sich die Lage, bleibt aber in Grenzfällen suboptimal. Genau dort greifen die Korrekturregeln (Formatwissen) und – perspektivisch – trainierte ML‑Modelle.
„Ich muss das Bild dementsprechend bearbeiten, dass ich sowas da rauskriege … natürlich auch nicht optimal … das sind dann diese Fehlerquellen, die man ausmerzen muss.“
Der Kontrast zwischen fixen Kameras und mobiler Erfassung wird dabei klar: Fixe Setups profitieren von definierten Parametern und einem bekannten Font‑Raster (5×7). Mobile Szenarien verlangen flexibelere Algorithmen, weil Abstand und Beleuchtung von Scan zu Scan variieren.
„Desired Solution“: Gelerntes ML‑Modell für Fehlerprofile
Als Ausblick erläutert Wagner, wohin die Reise geht:
„Desired Solution … dass man sich ein Machine Learning Model zurechtstellt und das anlernt … gewisse Ziffern haben diesen Fehlerwert … dann gebe ich das und dann mache ich es nicht selber programmatisch.“
Die Idee: Anstatt handkodierte Regeln für alle Verwechslungen zu pflegen, lernt ein ML‑Modell aus Beispielen, welche Zeichen in welchem Kontext zu welchen Fehlklassifikationen neigen. Dieses Wissen speist dann die Korrekturentscheidungen. Das passt gut zum Dot‑Matrix‑Setting, in dem Punktabstände, Unschärfe und Glanz interaktiv Fehlerbilder erzeugen.
Wichtig: Der Talk bleibt bewusst bei der Pipeline von heute – mit Blick auf eine ML‑gestützte Zukunft, die Heuristiken entlastet.
Engineering‑Leitfaden: Was wir aus dem Talk mitnehmen
Die Session liefert eine klare Checkliste, wie man Industrial OCR robust aufsetzt:
- Bildaufnahme zuerst stabilisieren
- Fixe Kameras bevorzugen, wenn möglich: konstante Parameter wirken Wunder.
- Bei mobilen Scans Nutzerfluss so gestalten, dass ruhige, frontale Aufnahmen begünstigt werden.
- „Minimal viable“ Vorverarbeitung etablieren
- Immer Graustufen, Ausrichtung, Kantenerkennung vor die Cloud‑OCR schalten.
- Beleuchtungs‑Hotspots und Spiegelungen aktiv minimieren (Aufnahmewinkel, Diffusor, Matte bei Tests).
- Cloud‑OCR gezielt einsetzen
- Microsoft Vision (Azure Cognitive Services) liefert die Zeichenerkennung – aber nur so gut wie die Vorverarbeitung.
- Latenz und Bandbreite gegen Erkennungszugewinn abwägen; Bildgröße nicht unnötig aufblähen.
- Post‑Processing nicht unterschätzen
- Codeformat fest verdrahten (Länge, erlaubte Zeichensätze, Präfixe/Suffixe).
- Typische Konfusionen (B↔A8 etc.) regelbasiert korrigieren.
- API‑First für Datenrückführung
- Nach OCR sofort strukturierter Lookup auf Produktions‑/Qualitätsdaten.
- Ergebnisse so aufbereiten, dass Position und Historie auf einen Blick klar sind.
- „Desired“ ML‑Korrekturlayer vorbereiten
- Fehlklassifikationen sammeln und labeln.
- Datenpfad so anlegen, dass spätere Modelle ohne Re‑Plumbing eingebunden werden können.
Besondere Stolpersteine bei Dot‑Matrix auf Metall
Der Talk macht deutlich, warum Dot‑Matrix‑OCR auf Metallflächen anspruchsvoll ist:
- Reflexionen: Glänzende Oberflächen erzeugen falsche Kanten/Highlights.
- Geringer Strichkontrast: Punktmatrix ohne definierte Linien – geringe Toleranz für Unschärfe.
- Perspektive: Schon kleine Kippwinkel verzerren die Punktabstände.
- Schriftverwechslungen: Ähnliche Muster in 5×7‑Raster (z. B. B vs. 8‑ähnliche Segmente).
Konsequenz: Ohne robuste Vorverarbeitung und Formatvalidierung bleiben Erkennungen unzuverlässig. Fixe Kameras mit definierter Font‑Kenntnis verringern das Problem; mobile Scans brauchen stärkere Nachbearbeitung und klare Nutzerführung.
Organisationskontext: coilDNA in Linz
Zum Schluss verortet Wagner coilDNA:
„Zu coilDNA … wir sind im Inter‑Trading‑Gebäude in Linz, sind 100% Tochter von der AMAG, daher Aluminium‑Coil.“
Der Aluminium‑Fokus erklärt, warum das Team so tief in den Coil‑Use‑Case eingestiegen ist – und warum die Lösung an der Schnittstelle von Produktionstechnik, Computer Vision und Cloud‑Architektur ansetzt.
Fazit: Industrial OCR, die den Produktionsalltag trifft
Der Talk „Industrial High Speed Cloud OCR“ von Jan Wagner (coilDNA) liefert einen nüchternen, praxistauglichen Fahrplan für OCR in rauen Industrieumgebungen. Die Quintessenz:
- Ohne Vorverarbeitung ist selbst eine starke Cloud‑OCR machtlos gegen Spiegelungen und Dot‑Matrix‑Artefakte.
- Domänenspezifisches Formatwissen ist ein Gamechanger für die Genauigkeit – insbesondere bei wiederkehrenden Fehlkonstellationen wie „B“ vs. „A8“.
- Fixe Kameras mit bekannten Parametern und Font‑Definitionen sind unschlagbar stabil; mobile Web‑Scans punkten mit Flexibilität, erfordern aber kluge Bildaufbereitung.
- Der Weg zu noch höherer Robustheit führt über ein ML‑basiertes Korrekturlayer, das Fehlerprofile aus realen Scans lernt.
Für Ingenieur:innen, die ähnliche Aufgaben lösen, heißt das: Pipeline zuerst, Heuristiken sofort, Cloud‑OCR gezielt – und Datenrückführung als festen Endpunkt. Genau so wird aus einem fotografierten Punktmuster auf Metall ein verlässlich verknüpfter Datensatz mit Produktionswert.