Vad
Projektets uppgift är att göra metadata på de hand- och maskinskrivna katalogkorten i Katalog-57 och Personverser av maskinellt läsbara. Personverser av är en liten katalog över författare till hyllningsverser. Katalog-57 är UB:s äldsta katalog, som avslutades 1957. Den alfabetiska katalogen innehåller drygt 800 000 kort över Delprojektet arbetar just nu med Personverser har inlett arbetet med Katalog -57.
Vem
I projektgruppen ingår Cecilia Roos, Jimmy Nilsson, Maria Hedberg, Åsa Forsberg (delprojektledare) och Åsa Sjöblom.
När
Delprojekt 3 beräknas pågå under större delen av 2023.
Hur
I delprojekt 2 skannas alla katalogkort. Därefter skickas de inskannade bilderna till OCR. OCR-programmet transkriberar tryckt och maskinskriven text, men kommer inte ens att försöka tolka handskriven text. Vi har gjort tester med att OCR-behandlar katalogkort från Katalog -57. Resultatet visar att OCR-behandlingen inte fungerar tillräckligt bra. Dels har OCR-programmet svårigheter att tolka all maskinskrift på korten, dels finns det kort där all väsentlig metadata är handskriven i ett första skede, och anmärkningar i maskinskrift lagts på i ett senare skede.
Därför kommer vi att träna en transkriberingsmodell som klarar av både handksirft och maskinskrift.
I transkriberingsarbetet ingår flera moment. Dessa använder artificiell intelligens för att först rita upp var texten finns på en sida (segmentering) och sedan transkribera texten. AI-modeller måste tränas upp och det gör man genom att skapa ground truth. Ground truth är den sanning AI-modellen ska utgå från.
Segmentering
Segmentering innebär att identifiera och ange var texten finns på sida. Vi skapar ground truth för segmenteringsmodellen genom att manuellt ange var texten finns på ett relativt stort antal kort. När modellen är färdigtränad segmenteras samtligas handskrivna kort i katalogen. Här är ett kort i Personverser av. Huvuduppslaget, på rad 1, visade sig vara en utmaning eftersom bokstäverna är så stora och texten ligger mycket högt upp på sidan. Vi gör segmenteringen i verktyget eScriptorium.

Transkribering
Nästa steg är transkriberingen, dvs textigenkänningen. Transkribering av handskrift betecknas HTR, Handwritten Text Recognition. HTR är en form av bildigenkänning, varje bokstav behandlas som en bild. Precis som för segmentering skapar vi först ground truth genom att göra en manuell transkribering av katalogkort. Hur bra en transkriberingsmodell är mäts i Character Error Rate (CER) vilket innebär antal felaktiga tecken. CER mäts i procent och målet är att komma ner i en CER under 10%.
Vi använder eScriptorium också för att göra ground truth för transkriberingen.


Transkriberingsmodellen tränas alltså i eScriptorium, som har ett användargränssnitt. Själva transkriberingen görs sedan i verktyget HTR Flor.