Transport i logistyka

"Bazgroły" kierowcy to nie wyrok

Jak sztuczna inteligencja nauczyła się czytać to, czego nie widzi zwykły OCR?

TL;DR

  • Tradycyjny OCR działa szablonowo gubi się przy pogniecionych dokumentach lub przesuniętych pieczątkach.
  • Nowoczesne AI łączy rozpoznawanie pisma odręcznego (HTR) z rozumieniem kontekstu, "domyślając się" treści podobnie jak ludzki mózg.
  • Dokum automatyzuje procesy od zdjęcia do danych w TMS, prosząc człowieka o weryfikację tylko w niejasnych przypadkach.

Porozmawiajmy szczerze o tym, co dzieje się w piątek po południu w dziale operacyjnym typowej firmy transportowej. Spedytorzy próbują dopiąć tydzień, telefony dzwonią, a na skrzynkę mailową spływają setki zdjęć od kierowców.

I tu zaczyna się dramat. Zdjęcia są zrobione w pośpiechu, często „kalkulatorem” przy słabym świetle w kabinie. Dokumenty CMR są pogniecione, poplamione smarem albo kawą. Ale najgorsze jest to, co na nich napisano. Albo raczej – jak napisano. Pismo odręczne kierowcy, który wypełniał dokument na kolanie, opierając się o kierownicę, to często zagadka, której nie powstydziliby się kryptolodzy z Enigmy.

Jeśli próbowałeś kiedyś przepuścić taki dokument przez tradycyjny program OCR (Optyczne Rozpoznawanie Znaków), wiesz, jak to się kończy. System wypluwa błędy, krzaczki i losowe znaki. Zamiast automatyzacji, masz frustrację i ręczne poprawianie wszystkiego od zera.

Dlaczego tak się dzieje i dlaczego rok 2026 przynosi w tej kwestii przełom?

Close-up of a dirty, crumpled delivery document on a vehicle dashboard being scanned by a blue digital laser, illustrating AI handwriting recognition of messy driver scribbles


Dlaczego stary OCR poległ w starciu z logistyką?

Aby zrozumieć, dlaczego Dokum działa inaczej, musimy wyjaśnić, dlaczego stara technologia zawiodła.

Tradycyjny OCR (taki, jaki znamy od lat 90.) działa trochę jak foremka do ciastek. Oczekuje, że litera "A" będzie zawsze wyglądać tak samo i że znajdzie się w idealnie równym rzędzie. Działa świetnie na umowach prawnych drukowanych w Wordzie. Ale transport to nie apteka. Tutaj rządzi chaos:

  • Brak szablonu: Pieczątka odbiorcy ląduje tam, gdzie akurat było miejsce – czasem w polu 24, czasem w 16, a czasem na marginesie do góry nogami. Stary OCR, który szuka danych "po współrzędnych" (Zonal OCR), w tym momencie głupieje.
  • Czynnik ludzki: Pismo odręczne jest niepowtarzalne. Litery łączą się ze sobą, "7" wygląda jak "1", a podpis nachodzi na wagę towaru. Dla klasycznego algorytmu to szum, a nie informacja.

Przez lata branża IT mówiła logistyce: "Musicie zmusić kierowców, żeby pisali wyraźniej". Każdy manager transportu wie, że to utopia. Dlatego technologia musiała się zmienić.

Rewolucja HTR i kontekstu: AI, które myśli jak spedytor

Nowoczesne narzędzia, takie jak Dokum, nie "patrzą" na dokument jak na zbiór pikseli. One go "czytają" – wykorzystując mechanizmy zbliżone do ludzkiego mózgu. Opiera się to na dwóch filarach:

1. HTR (Handwritten Text Recognition)

To technologia rozpoznawania pisma odręcznego. Modele AI zostały "nakarmione" milionami próbek pisma – od lekarskich bazgrołów po szkolne kaligrafie. Dzięki temu system potrafi rozpoznać, że ten dziwny zawijas to litera "g", a tamta kreska to cyfra "1". To nie jest zgadywanie, to statystyka oparta na sieciach neuronowych.

2. Rozumienie semantyczne (Kontekst)

To jest prawdziwy "game changer". Wyobraź sobie, że widzisz zamazane słowo: "W__szawa". Twój mózg automatycznie dopowiada brakujące litery, bo wiesz, że to stolica Polski. Tak samo działa nowoczesne AI w Dokum.

  • Jeśli system widzi ciąg znaków "24 00", a obok znajduje się słowo "kg" lub "brutto", to wie, że jest to waga, nawet jeśli jedno zero jest niewyraźne.
  • Jeśli w polu daty widzi "12/05/202_", potrafi domyślić się roku na podstawie innych dokumentów lub bieżącej daty.

System nie potrzebuje sztywnych ramek. Szuka znaczenia, a nie tylko kształtów.

Od zdjęcia na WhatsAppie do rekordu w TMS – bez bólu głowy

Jak to wygląda w praktyce operacyjnej? Kierowca kończy trasę. Robi zdjęcie CMR. Nie musi go skanować w biurze. Wysyła je tak, jak stoi. Dokum przejmuje ten plik i w ułamku sekundy wykonuje pracę, która człowiekowi zajęłaby minutę mrużenia oczu:

  1. Obraca obraz i poprawia kontrast (usuwa cienie z kabiny).
  2. Lokalizuje kluczowe pola (niezależnie od tego, gdzie wbito pieczątkę).
  3. Odczytuje pismo ręczne i drukowane.
  4. Przekazuje gotowe dane (JSON/XML) do Twojego systemu TMS lub ERP.

Co ważne – system jest uczciwy. Jeśli pewność odczytu (Confidence Score) jest niska (np. plama oleju zalała połowę kwoty), system nie zgaduje. Podświetla to pole na czerwono i mówi: "Hej, człowieku, sprawdź to". Wtedy Twój pracownik poprawia tylko ten jeden fragment, a nie przepisuje całego dokumentu.

Koniec z "doktoryzowaniem się" z charakteru pisma

Wdrożenie tej technologii to nie tylko oszczędność czasu. To zmiana jakości pracy Twojego zespołu. Zamiast frustrować się i dzwonić do kierowcy z pytaniem "Co ty tu napisałeś, Marek?!", spedytorzy zajmują się tym, co ważne – szukaniem ładunków i obsługą klienta.

Technologia w końcu przestała wymagać od nas, byśmy byli robotami piszącymi drukowanymi literami w kratkach. W końcu to maszyna nauczyła się rozumieć nas – z całym naszym bałaganem, pośpiechem i niedoskonałością.

Masz dokument, na którym poległ każdy inny system? To świetnie. Lubimy wyzwania. Weź ten pognieciony CMR, który leży na Twoim biurku, zrób mu zdjęcie telefonem i wrzuć do Dokum. Zobacz na własne oczy, jak sztuczna inteligencja radzi sobie z "bazgrołami", które do tej pory potrafił odczytać tylko ich autor.