maandag 29 oktober 2012

Dat is maar een mening: metadata in documenten

Een apart bericht op Joop.nl dit weekend.
Duizenden documenten van (semi-)overheidsorganisaties op internet blijken een Latijnse titel te hebben: At opinio facillime sumitur. 
Zoek zelf maar even en het resultaat zal vergelijkbaar zijn met het plaatje hierboven: documenten van de Inspectie voor de Gezondheidszorg, het ministerie van Sociale Zaken, het SBV-Z, Kansen op werk bij multiproblematiek en ga zo maar door.
Uit onderzoek van Joop.nl blijkt dat de oorzaak ligt bij Studio Dumbar.
Ontwerpers gebruiken meestal een standaardtekst voor opmaakvoorbeelden, de zogeheten 'Lorem ipsum', een soort Latijnse neptekst die een beeld geeft van hoe een tekst oogt. Studio Dunbar pakte het anders aan en gebruikte als voorbeeldtekst een deel uit de in 1511 gepubliceerde Lof der Zotheid van Erasmus. Daarin komt de frase at opinio facillime sumitur voor en die staat bijvoorbeeld op de instructie voor het samenstellen van rapporten als eerste zin. In sommige programma's wordt de eerste zin van een document automatisch als titel gekozen. Als vervolgens dat document weer als basis wordt gebruikt, gaat de titel ook mee.
Hoe werkt dat dan? Nou kijk.
Hierboven zie je de eigenschappen van de Word-versie van mijn scriptie over die rederijkers in Kaapstad. In het bestand zijn de titel en de auteur ervan als metadata opgenomen. Ik had er nog meer gegevens aan toe kunnen voegen, maar dat vond ik blijkbaar niet de moeite waard.
Als je nu naar de eigenschappen kijkt van bijvoorbeeld het Aanvraagformulier verklaring van vakbekwaamheid (doc) voor psychotherapeuten met buitenlandse diploma's om in het BIG-register te worden opgenomen, dan zie je dit:

En als je een word-bestand converteert naar pdf, dan gaan titel en auteur gewoon mee. Kijk maar (via ctrl-d in je pdf-reader): mevrouw Hes is ook auteur van de XIS Testtool (pdf) van het Ministerie van Volksgezondheid, Welzijn en Sport en het rapport 'Dat werkt' (pdf) van de Inspectie Werk en Inkomen.

(Opvallend is trouwens, dat mw. M. Hes als zoekterm geen in dit kader relevante zoekresultaten oplevert. Het veld "auteur" wordt blijkbaar niet geïndexeerd door Google.)

Waarom is dit zo erg, zul je misschien denken?
Tja, een van de mantra's van digitale archivering is dat je metagegevens automatisch in de archiefbestanden kunt opnemen en uit de bestanden kunt extraheren. Maar, op deze manier worden de overheidsarchieven natuurlijk niet echt heel toegankelijk en betrouwbaar.

Alles is maar een mening en mw. M. Hes is 's rijks auteur.

Gerelateerd
Rottende bitjes in de gemeenteraadsverslagen? #kvan11

Geen opmerkingen:

Een reactie posten