AI Vision dækker i dag tre forskellige slags input, der ofte bliver puttet ned i den samme kasse, selv om de opfører sig ret forskelligt i drift. Det første er almindelige billeder, fotografier af et produkt, et lokale, en skade på en bil eller en hylde i en butik. Det andet er dokumenter, scannede sider, pdf-filer fra et fagsystem, blanketter med håndskrevne felter, billeder af kvitteringer taget med en mobil. Det tredje er video, optagelser fra et overvågningskamera, en præsentation, et interview eller en kort produktdemonstration. Den tekniske familie er den samme, men det praktiske bruger ikke ens.
For mange danske virksomheder begynder mødet med visuel AI med et af de tre spor og ikke med en samlet plan. En medarbejder har set, at en sprogmodel kan beskrive et billede ret præcist, og en idé får liv om at automatisere noget, der hidtil har krævet en kollega med en mappe på skrivebordet. Det er ikke en dårlig start. Det er bare værd at vide, at de tre spor har hver sine styrker og hver sine faldgruber, før der bliver lovet noget i et projektmøde.
På billedsiden er styrken, at modellerne nu kan genkende og beskrive ret komplekse scener på dansk, hvis de bliver bedt om det på en fornuftig måde. En model kan typisk se, om et billede viser en stol, en knækket flise eller en uoverskuelig hylde, og den kan begrunde det med almindelige ord. Det er stærkt, når opgaven handler om at sortere indkommende billeder i kategorier, holde øje med, om noget afviger fra det normale, eller hjælpe en medarbejder med at beskrive et produkt hurtigere, end hvis ordene skulle findes fra bunden hver gang.
På dokumentsiden er billedet en anelse mere broget. Modellerne læser trykt tekst stabilt, og de håndterer formularer med kendte felter rimeligt godt, så længe layoutet ikke skifter for vildt fra dokument til dokument. Til gengæld er der stadig sten i skoen, når et felt indeholder en håndskrevet bemærkning, når en stempel ligger henover et tal, eller når det samme dokument er scannet skævt og halvt ulæseligt i den ene kant. Den slags afgør ofte, om en pilot går i drift eller bliver til en demo, der hele tiden mangler “lige det her sidste”.
Video er den tredje og mest umodne af de tre. Det er muligt at få en model til at gennemse en kort optagelse og beskrive, hvad der sker i den, eller at hente nøglemomenter ud, så et menneske ikke behøver se det hele. Men jo længere optagelsen er, jo mere bliver det en disciplin med store omkostninger og lange svartider, og det skal tænkes ind. Mange af de mest brugbare videoopgaver i en almindelig virksomhed er stadig korte klip på sekunder, ikke timelange optagelser.
Når en dansk virksomhed skal vurdere, om visuel AI overhovedet kan løse noget for den, kan det betale sig at starte i den anden ende end teknologien. I stedet for at spørge “hvad kan AI Vision?”, er det mere brugbart at spørge “hvilken konkret arbejdsgang i vores hverdag ville have det bedre, hvis der lå en automatisk beskrivelse, en automatisk kategorisering eller en automatisk advarsel ved siden af et billede, et dokument eller en optagelse?” Det spørgsmål filtrerer ret hurtigt ud, hvad der reelt er en kandidat, og hvad der bare lyder spændende.
Den næste filtrering er mængden. Hvis en arbejdsgang kun handler om femten dokumenter om måneden, er det sjældent en god idé at bygge en automatisk pipeline. Den medarbejder, der hidtil har tygget sig igennem dem, kan formentlig fortsætte uden særlig smerte, og opbygningen af et system koster mere, end den vinder. Hvis arbejdsgangen til gengæld handler om hundredevis af dokumenter om ugen, og om gentagne kategorier, der nogenlunde gentager sig, så begynder regnestykket at flytte sig.
Den tredje filtrering er konsekvensen af en fejl. Hvis en model laver en fejl i en beskrivelse af et lagerbillede, er det typisk en lille sag, der hurtigt opdages og rettes. Hvis modellen forveksler to felter i et myndighedsdokument og sender det videre, kan konsekvensen være anderledes alvorlig. Det er ikke nødvendigvis en grund til at lade være, men det er en grund til at lægge menneskelig kontrol det rigtige sted, og det skal afklares før, der bliver bestilt værktøj.
Dermed er man nået til det punkt, hvor menneskelig gennemsyn skal designes ind. Den klassiske fejl er at antage, at AI Vision-løsningen enten kører fuldautomatisk eller slet ikke, og at en succesfuld pilot betyder, at mennesket kan slippes løs til andre opgaver. Det viser sig næsten altid at være forkert. De løsninger, der overlever drift, er dem, hvor modellen gør grovsorteringen, og hvor en medarbejder bekræfter, retter eller afviser i de tilfælde, hvor modellen er usikker, eller hvor sagen er for vigtig til at lade gå videre uden et sæt menneskelige øjne. Det er en arbejdsdeling, ikke en afskaffelse.
Det er også her, at gevinsten i praksis ligger. Den ligger sjældent i, at en hel proces forsvinder, men i at de mest rutineprægede dele bliver hurtigere, og at medarbejderen får mere tid til de tilfælde, der reelt kræver vurdering. Det er en mindre dramatisk fortælling end “AI overtager opgaven”, men det er den, der står igennem efter et halvt år.
For den, der gerne vil have en sober dansk indgang til, hvilke typer billed-, dokument- og videoopgaver der typisk passer godt til visuel AI, og hvor faldgruberne sidder, ligger HverdagsAIs arbejde med AI Vision
som et roligt udgangspunkt. Det er en oversigt og ikke en købsguide, så den passer godt til den fase, hvor en virksomhed stadig er ved at finde ud af, om en konkret arbejdsgang overhovedet hører hjemme i den her familie.
Konklusionen af den slags evalueringsøvelse er ofte mere nuanceret, end et oprindeligt projektmøde lægger op til. Nogle ideer falder fra, fordi mængden er for lille eller fejlomkostningen for høj. Andre rykker fra “spændende” til “indsatsen værd”, når det går op for organisationen, hvor meget tid medarbejderne faktisk bruger på at kigge på det samme. Den, der gør hjemmearbejdet i den rækkefølge, kommer typisk frem til et roligere og mere holdbart valg end den, der vælger værktøjet først og leder efter en opgave bagefter.