Deel dit artikel
-

Het web als woordenboek

Nooit meer hoeven zoeken; dat is de gedachte achter het Semantische Web, waarin de betekenis van woorden aan decentraal opgeslagen beschrijvingen onderling gekoppeld kan worden. Het Web als Dikke Van Dale, realiteit of utopie? Door Jan Libbenga

Een verbouwde moskee in het hartje van Mountain View, Californië oogt leeg en verlaten. Een paar bureaus met pc's, wat kabels en een koffiezetapparaat vormen het interieur van Alpiri, een jong bedrijf dat zich richt op de ontwikkeling van zoektechnieken.

Alpiri telt vier personeelsleden, onder wie oprichter R.V. Guha en Rob McCool, die ooit samen met Marc Andreessen aan de wieg heeft gestaan van de oerbrowser Mosaic, de voorloper van Netscape. Guha demonstreert de eerste concrete toepassing van Alpiri: een programma dat aan bestaande zoekmachines op het Web kan worden gekoppeld. "Een zoekmachine weet niet wie Tori Amos is, en dus ook niet dat ze muziek maakt", legt Guha uit. "Wij hebben een database ontwikkeld met informatie over steden en bekende personen, waardoor een naam als Tori Amos meteen wordt herkend." Vervolgens kan daar allerlei extra informatie aan worden toegevoegd, zoals verwijzingen naar online cd-winkels of een overzicht van al haar concerten.

Alpiri is al in gesprek met verschillende zoekmachines, maar Guha moet toegeven dat de onderhandelingen moeizaam verlopen. "Door het slechte economische klimaat wil niemand investeren."

Alwetend

Bedrijven als Alpiri komen niet uit de lucht vallen. Guha werkte in het verleden aan een uiterst ambitieus project genaamd Cyc, een alwetende database waarin alle kennis over de wereld opgeslagen moet worden, zodat computers informatie ook echt zouden begrijpen.

Misschien nog wel veel ambitieuzer zijn de plannen van Tim Berners Lee, de geestelijke vader van het World Wide Web. Hij droomt al enige tijd van het Semantische Web, waarin de betekenis van woorden op een webpagina decentraal opgeslagen en onderling gekoppeld zou kunnen worden. Slimme agents kunnen die informatie gebruiken om automatisch allerlei taken uit te voeren. Met de huidige webtaal html is dat niet goed mogelijk: die beschrijft alleen hoe tekst in een browser moet worden weergegeven (lettertype, kleur). De opvolger eXtensible Markup Language (xml) biedt meer mogelijkheden, maar is ook in dit opzicht niet toereikend.

Als het woord stoel wordt genoemd, wordt dan een meubel of een academische leerstoel bedoeld? Om dat onderscheid te kunnen maken moet de context begrepen worden. Een paar jaar geleden is hiertoe al eens het zogenoemde Resource Description Framework (rdf) ontwikkeld, een modelleertaal waarin allerlei termen nader verklaard kunnen worden. Rdf is vergelijkbaar met een woordenboek, maar dan niet van het type Dikke Van Dale. "Rdf is een zeer simpele beschrijftaal", zegt Jos van der Meer van Aidministrator, een bedrijf uit Amersfoort dat semantische (database)toepassingen ontwikkelt. "Je hebt in rdf bijvoorbeeld niet de mogelijkheid om de symmetrie van een relatie uit te drukken. Als je in rdf formuleert dat Philips samenwerkt met Matsushita dan kun je daaruit niet afleiden dat Matsushita ook samenwerkt met Philips."

Aidministrator heeft voor Schouwburg De Flint in Amersfoort een programma ontwikkeld, waarbij agendagegevens aan de hand van trefwoorden als muziek en cabaret automatisch op de website in categorieën worden gerangschikt. De ambities van het Semantische Web reiken echter veel verder. Om van het World Wide Web een virtueel woordenboek te maken zal eerst de ontologie moeten worden voltooid en dat kan nog jaren duren. Het idee is dat in eerste instantie uit allerlei deelsectoren ? zeg de defensie-industrie en de medische wereld ? beschrijvingen worden aangedragen die voor specifieke toepassingen gebruikt kunnen worden. Een enkele organisatie kan immers onmogelijk de complete wereld beschrijven, nog los van het feit dat die beschrijvingen ongetwijfeld zullen worden aangevochten.

Volgens Jos van der Meer, cto van Aidministrator, zal het Semantische Web zeer beslist niet uit universeel geldende beschrijvingen bestaan. Binnen rdf en zijn opvolgers is juist ook ruimte gecreëerd voor tegenstellingen en kunnen feiten als meningen worden gepresenteerd. "Binnen de semantiek bestaat geen ultiem beeld van de wereld. Dat zou ook absoluut niet kunnen. Stel dat ik straks wil weten wat de beste wasmachine is om te kopen. Aan wie moet je dat dan vragen? De fabrikant beweert dat hij de beste wasmachine maakt, de Consumentenbond vindt het apparaat te duur, en de milieufederatie zegt dat de wasmachine te veel stroom verbruikt. Informatie is alleen relevant in een bepaalde context. Informatie op het Web zal ook zo georganiseerd moeten worden, aldus Van der Meer: "Binnen het Semantische Web is de context waarin informatie wordt aangeboden even belangrijk als de informatie zelf."

Jeroen Wester, directeur van Aidministrator, vergelijkt het Semantische Web met een bibliotheek waar boeken geen vaste plek meer hebben. Een boek over Israël dat gerangschikt wordt onder reisboeken zou ook relevant kunnen zijn in de sectie religie of geschiedenis. "Wij hebben voor de onderwijswereld een toepassing ontwikkeld waarbij de informatie voor een presentatie aan leerlingen verschillend wordt gerangschikt, al naar gelang de taak van de docent, terwijl de database zelf voor iedere docent dezelfde informatie bevat."

www.w3.org/2001/sw/
www.semanticweb.org/knowmarkup.html
www.aidministrator.nl
www.networkinference.com
www.alpiri.com

Deel dit bericht

3 Reacties

Arjen J.W. Poutsma

De opvatting dat er zoiets bestaat als een universele ontologie getuigt van zeer simplistische visie op het fenomeen menselijke taal en de betekenis ervan. Elke poging om zo'n ontologie te vormen is per definitie gedoemd te mislukken omdat het resultaat aantoonbaar arbitrair en ambigu is; arbitrair omdat het woord "hart" door een slager een andere betekenis zal krijgen toebedeeld als door een chirurg; ambigu omdat taal per definitie ambigu is. Neem bijvoorbeeld de zin "time flies like an arrow", die voor mensen maar een interpretatie heeft ("de tijd vliegt als een pijl"), maar voor computers tenminste twee betekenissen heeft (waaronder "de tijd vliegjes houden van een pijl"). En dan is er nog het probleem van meertaligheid: een woord kan in een andere taal meerdere betekenissen hebben, of vice-versa: meerdere woorden kunnen met één woord vertaald worden. Neem bijvoorbeeld de zin "de man ging de pijp uit"; wat is hierin de betekenis van het woord "de pijp"? Het geheel doet denken aan de jaren 70, waarin wetenschappers door middel van regels de kennis van schaakmeesters probeerden te implementeren in schaakprogramma's. Tegenwoordig weten we dat de zgn. brute force methode veel beter werkt. SmartHaven laat de computer daarom doen waar hij goed in is: wij hebben al onze taaltechnologie gebaseerd op statististiek. En niet zonder reden: uit de wetenschappelijke literatuur blijkt keer op keer dat pure statistiek zeer geschikt is voor het classificeren van een document in een bestaande categoriënstructuur.

chefren

Het semantische web lijkt me alleen mogelijk als mensen in computers zouden veranderen die, "binair", bij elk woord dat ze gebruiken =exact= aangeven in welke betekenis het woord wordt gebruikt. Een semantisch web lijkt me derhalve onzin, als mens af en toe een exacte hyperlink in een tekstje verwerken is tot daar aan toe maar bij elk woord =precies= aangeven in welke van de soms honderden betekenissen het wordt gebruikt, onmenselijk! "Pure statistiek" gebruiken om teksten "automatisch" te classificeren in "bestaande" categorieen is wellicht aantoonbaar haalbaarder/goedkoper dan de eerstgenoemde oplossing maar daarmee nog niet een zinnige of practische oplossing die voor mensen acceptabel is. Het "bestaande categorieen" aspect lijkt me een zwak punt, op welke basis zijn die gedefinieerd, waarom zouden we daar wat aan hebben voor =nieuwe= vraagstukken waar wellicht per definitie nog geen categorie voor is? Moet na definieering van de nieuwe categorie het web soms alsnog met "pure statistiek" "even" worden nagelopen? Elementaire brute-force methoden als (…) voor het integrale web of (…) voor het nieuws-deel gaan nog jaren mee. Gewoon als mens met paar gigabyte aan associatief geheugen wat trefwoorden en eventuele opties invoeren, de resultaten rustig met 40 Hz bruut-parallele verwerking van de hersenen beoordelen en als het resultaat niet bevalt opnieuw wat trefwoorden proberen! [ingekort door de redactie]

Andre van Brussel

De analyse over de fundamentele problemen die aan taal kleven is op zich een juiste, maar…. er is door vast te houden aan fundamenteel onderzoek wel degelijk resultaat geboekt. Alleen zie je dat wel vaker bij elke nieuwe ontwikkeling: we denken er alles mee aan te kunnen. Vandaar dat ik de parallel met de schaaktijd wel een goede vind: men is daar aardig op terug gekomen. Alleen is het Brute Force EN AI-techniek EN database met-gewonnen-stellingen samen geworden. Ofwel weet waar je concept sterk in is en juist zijn beperkingen heeft. Zo beschouw ik ook het semantische web. Als een aanvulling (en mogelijk paraplu) op bestaande methoden en technieken, maar wel vanuit een andere benadering. Wat dat betreft geeft het artikel een eenzijdige benadering door in te gaan op de beschrijvingstalen (HTML, XML, RDF). Wil je het semantische web goed belichten dan ontkom je niet aan om ook een relatie te leggen met de bibliografische wereld enerzijds, en de concepten uit de wereld van search engines anderzijds. Ook die werelden kennen nl. de problematiek van Context, Classificatie en Fuzzyness, maar bieden verschillende oplossingen. Het combineren van alle verschillende concepten brengt het internet, is mijn overtuiging, een stapje verder.

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond