Wanneer zoeken niet leidt tot vinden – het belang van Metadata.

Met een goede metadata huishouding maak je het mogelijk om langs dimensies te verkennen en te sorteren. Het stelt je in staat ‘gericht te zoeken’ en geeft je de mogelijkheid om bij het ‘vrije zoeken’ je resultaten te verfijnen met behulp van bijvoorbeeld facetten; en voor de ‘echt slimme’ ontwikkelaars biedt het zelfs mogelijkheden tot auto-classificatie, semantisch clusteren of contextuele analyse.

En toch is het maken van een gedegen metadata-ontwerp iets wat in een hoop projecten verzuimd wordt. Vaak is het metadata model iets wat impliciet ontstaan is als bijproduct van een functionele behoefte. Net zo vaak valt het aan het begin van het project buiten scope omdat de hoeveelheid informatie op dat moment prima te overzien is en terugvindbaarheid nog geen issue is. Andere keren is het simpelweg de organisatie die geen partner wilt zijn in het tot stand brengen van een model door b.v. geruzie tussen afdelingen;”wij zijn allemaal anders!”.

Hoe dan ook, naarmate het project vordert, het systeem vaker gebruikt wordt en de hoeveelheid content groeit. Wordt ook het probleem van het ‘slechte metadata ontwerp’ zichtbaar. Het zal voor de gebruikers namelijk steeds lastiger worden om nog content terug te kunnen vinden. En nee, als je denkt dat een full-text search oplossingen zal bieden, dan zul je bedrogen uit komen.

Een aantal ideeën voor als je de metadata plank hebt misgeslagen.

Ik hou van complexe uitdagingen. Een document management systeem met meerdere ‘document-klassen’ gecombineerd met ‘state-of-the-art search engines’ waarmee niks te vinden valt is dan ook een erg leuke. Wat zijn je opties?

Waar sta je?

Überhaupt de eerste stap die genomen moet worden is het inventariseren van het ‘model’ wat tot dusver is ontstaan. De kans is groot dat er toch wel het een en ander aan nuttige informatie wordt opgeslagen, maar dat deze niet beschikbaar is op het document. Indien je zaakgericht werkt, of waneer je documenten onderdeel zijn van een dossierstructuur dan is ook de metadata van deze processen,zaken, dossiers en mappen wellicht relevant voor je documenten.

Het gemakkelijkst is het om even ene tool als excel te pakken, en daarin je klassen en properties letterlijk op een rijtje te zetten . Groepeer de gelijksoortige klassen (alle documenten bij elkaar, etc.) en maak inzichtelijk welke ‘properties’/metadatavelden van deze klassen overlappen, verschillen of gelijksoortig zijn maar verschillen in naam (b.v. plaats vs woonplaats vs stad).

Kijk vervolgens naar je spreadsheet en houdt in gedachten dat als gebruikers content zoeken, ze in principe op zoek zijn naar een ‘document’ en die denken te gaan vinden door free-text-search te combineren met metadata-filters.

Her-modeleer je metadata-model.

Door te kijken van uit het ‘zoek perspectief’ kom je er achter dat je model een aantal gaten heeft. Mogelijk kom je er achter dat het zoeken op één bepaald kenmerk onbewust al zorgt voor de uit-filtering van hele groepen content. Anderzijds zul je verbaasd zijn dat sommige content essentiële kenmerken mist.

Wat je ook tegenkomt, schets je nieuwe model, pak een paar iteraties om het te verbeteren en leg het voor aan je collega’s.

Wat volgt is je referentiemodel waaraan je je huidige situatie aan kan evalueren.

Quick-wins in metadatering.

Je nieuwe referentiemodel maakt het mogelijk quick-wins te identificeren. Denk aan het toevoegen van essentiële kenmerken, het verplicht/optioneel maken van kenmerken, het toevoegen van keuzelijsten of het harmoniseren van naamgeving (n.b. dat sec van uit het zoekperspectief de meeste tools metadata-mapping ondersteunen).

Stimuleer invoering en vul automatisch in.

Gebruikers zitten nu eenmaal niet te springen op het invullen van metadata. Wat echter wel goed is om te weten dat gebruikers wel geprikkeld worden indien ze incorrecte metadata zien staan.

Vul daarom zoveel mogelijk vooraf in. Haal kenmerken uit de gebruikerscontext(LDAP), het proces, de zaak of het bovenliggende dossier. Gebruik ook de kenmerken uit de content, zoals de bestandsnaam, de titel, het onderwerp of de auteur.

Het verplicht stellen van kenmerken is verder tricky, maar wordt als minder vervelend ervaren wanneer het elementen met een keuzelijst betreft, maak hier dus gebruik van.

Maak een plugin voor je ‘crawler’.

Vrijwel alle search engines bieden mogelijkheden voor maatwerk – en hoewel dit binnen NL nog niet vaak gedaan is, is het makkelijker dan gedacht. Het is in ieder geval een belangrijke optie om te overwegen wanneer je zoek resultaten wilt verbeteren. Het stelt je in staat metadata op te poetsen of te verrijken zonder dat je het systeem vervuilt.

Enkele voorbeelden van nuttige plugin features:

Lege / null waarden voorzien van een label; ‘ Niet relevant / ingevoerd’. Heeft een gunstig effect bij facetted-search interfaces.
Het invullen van defaults.
Het overnemen van folder of dossier kenmerken die relevant zijn voor de terugvindbaarheid.
Het overnemen van kenmerken van andere entiteiten (procesgegevens, zaakgegevens e.d.)
Het vertalen van technische gegevens (sleutels) zoals userid naar username.

n.b. dat een veel uitgevoerd alternatief wat mij betreft de plank misslaat: ‘het door-synchroniseren van metadata van aanverwante objecten (zoals bovenliggende dossiers) naar documenten’. Het verhoogt je beheerlast aan het metadatamodel – je dient de redundante properties te managen -, het vergt synchronisatiemiddelen – die waarschijnlijk gefagmenteerd in je systeem terrecht komen, en bovendien je systeem belast terwijl je zoek-service ilde staat – .

Ivo Jonker

Continue to develop

Wanneer zoeken niet leidt tot vinden – het belang van Metadata.

Een aantal ideeën voor als je de metadata plank hebt misgeslagen.

Leave a Reply Cancel reply