Hoofdcategorieën

Nieuwe zoekmachine moet menselijke taal begrijpen

Door René Gerritsen, dinsdag 18 september 2007 18:27
Submitter: aliencowfarm, views: 13.501

Het Amerikaanse bedrijf Powerset heeft een nieuw soort zoekmachine gepresenteerd dat natuurlijke, menselijke taal moet begrijpen. Het bedrijf laat nog deze maand een selecte groep bètatesters los op hun zoeksysteem.

Powerset heeft een belangrijk deel van de techniek voor de zoekmachine onder licentie gekocht van Xerox' Palo Alto Research Center. De site maakt het mogelijk om complete zinnen in te typen als zoekcriteria en probeert daaruit de context van woorden te ontdekken. Bij conventionele zoekmachines worden pagina's geïndexeerd op trefwoorden en hoe meer trefwoorden overeenkomen met de zoektermen, hoe hoger een pagina in de zoekresultaten staat. De Powerset-zoekmachine daarentegen indexeert pagina's op hun betekenis, of, met een deftig woord, op de semantiek.

Powerset Use Cases

Bezoekers van de site kunnen Powerset helpen het zoekalgoritme te verbeteren door gebruik te maken van Use Cases en Powermouse. Use Cases is een techniek waarbij de resultaten van Powerset naast die van een andere zoekmachine, die op trefwoorden zoekt, worden gelegd. De gebruiker kan aangeven welke zoekresultaten het beste zijn en welke niet nuttig zijn. Powerset hoopt met deze tool duidelijk te maken hoe goed hun zoekmachine werkt ten opzichte van traditionele algoritmes.

De tweede techniek, Powermouse, laat gebruikers zoeken in de semantische feitendatabase die de zoekengine heeft vastgelegd. De Powerset-zoekmachine wordt in 2008 toegankelijk gemaakt voor het grote publiek.

Volgende 21:02
Vorige 17:38

Reacties

«  1  2  »

uit het gebruikte voorbeeld blijkt alleen dat de zoekmachine ca. net zo veel menselijke taal begrijpt als de windows-help: als je in office in zou typen "hoe krijg ik die fucking assistent weg", wordt er gezocht op "assistent", veel voorkomende woorden worden automatisch weggelaten uit de zoekopdracht en fucking kan hij nergens vinden, want pc's zijn nu eenmaal very pc.

een stuk informatiever zou het artikel zijn - en dat zou tegelijk misschien ook iets meer fundament leveren voor de kop - als er iets stond geschreven over de manier waarop de indexering plaatsvindt.

gaat nog wel iets verder... als je het plaatje bekijkt (beetje blurry) wordt er volgens mij een link gelegd tussen 'politicians' en bv. 'George W. Bush' en ook 'Winston Churchil'

ik zag het, maar het plaatje is van alles, alleen geen bewijs voor het herkennen van taal, daarvoor is inzicht nodig in de opbouw van de zgn. semantische database: het is geen kunst om "bush" en "churchill" te mappen op "politicians", veel interessanter voor de vraag of het echt om taalherkenning gaat, is de vraag *hoe* dat wordt gemapped.

[Reactie gewijzigd door .at]


Ik ben benieuwd naar het antwoord op "The Answer to Life, the Universe, and Everything" :)

ik zie echt niet in waarom Geqxon's reactie ongewenst is hoor.
Vroeger zou het +2 grappig zijn, en nu -1 ongewenst. |:(

Zijn ze hier in Europa ook niet mee bezig? Volgens mij was oa Siemens daarbij betrokken. Het scheen nogal ingewikkeld te zijn.
De EU sponsort een en ander nog.
Als de amerikanen nu al een werkende techniek hebben?

gevonden:
http://life.tweakers.net/...n-Duitse-zoekmachine.html

[Reactie gewijzigd door Quacka]


Ja dat is er, gewoon in Nederland:

http://www.nbic.nl/research/biorange/projects/SP4/sp4t1/sp411/

Alleen niet voor algemene tekst, maar voor specifieke domeinen zoals life sciences.

[Reactie gewijzigd door VidJa]


Prof. dr. C.H.A. Koster
en dan heb je als email kees@.... :+

Q-Go doet ook zoiets.

Q-Go maakt een zoekmachine op basis van linguistische bomen. Daar wordt de vraag van de 'klant' vergeleken met modelvragen. Het doel daarvan is het snel beantwoorden van vragen van mensen die al bewust op jouw site aangeland zijn. De set waarin gezocht wordt is dan ook vooraf bepaald. Het werkt trouwens wel angstvallig snel.

Wat Q-Go maakt is heel nuttig voor bedrijven die hun klanten snel willen helpen, maar het is totaal iets anders dan in dit artikel beschreven wordt.

Meer info op http://www.q-go.com

Als je het eens in actie wil zien dan moet je eens zoeken bij de postbank of uwv, die gebruiken het.

Als ik me niet vergis zijn er sinds de jaren 90 al tientallen bedrijven geweest die semantische zoekopdrachten beloofden. Maar uiteindelijk heeft dat imho zo goed als niks opgeleverd.
Google heeft volgens mij zelfs bewezen dat de zoekbegrippen niet zozeer het pobleem zijn (dus lose kernwoorden tov volzinnen oid), maar eerder de rangschikking van de resultaten en de user-interface.
Ik wens de makers van deze zoveelste search-engine avalst succes bij het opboksen tegen de hegemonie van Google :)

mijn eerste gedachte: http://bash.org/?446471 ;)

maargoed, wat is nou de *meerwaarde* boven zoekwoorden? daar wordt het uiteindelijk toch wel naar vertaald en je krijgt het er alleen maar moeilijker mee (minder controle, weet minder goed wat er precies gebeurt...) dus zal dit hoogstens als speeltje een paar keer leuk zijn, lijkt me...

Ik vind het anders ontzettend handig want Google wordt met de dag slechter. Ik typ vaak volledige zinnen in Google en zet woorden die bij mekaar horen tussen quotes. Maar ik zie met de dag dat er meer sites hoog in de zoek opdrachten komen die gewoon veel meuk indexeren omdat ze alle gecombineerde zoek termen van mij op hun site hebben staan.

Ik heb liever een zoekmethode waarbij ik mag aangeven hoever de woorden uit de opdracht maximaal uit elkaar mogen staan.
ik loop nog regelmatig tegen het probleem aan dat ik onzin resultaten krijg omdat Pietje het bovenaan de pagina heeft over mijn eerste woord en 50 reacties later gebruikt Jantje het andere woord.

lekker relevant...

Lijkt me inderdaad een goede feature. Veel lange verticale pagina's zoals blogs, fora, en rss feeds duikelen hoog op in zoekmachines omdat er nu eenmaal veel tekst in staat. Dergelijke pagina's zouden dan ook per segment geindexeerd moeten worden zodat tekst die bij elkaar hoort bij elkaar blijft, en tekst die er los van staat wordt weggelaten.

Of iets anders wat ik regelmatig mis is de optie om mee te laten wegen hoe recent de pagina is. Veel te vaak krijg ik informatie die er al lang niet meer toe doet.

Bijvoorbeeld dat als je naar een vergelijkende test van iets zoekt, dat je een test krijgt met producten van 5 jaar geleden die tegenwoordig verouderd zijn en niet eens meer te koop zijn. Dan mis ik de optie om te zeggen dat ik bijvoorbeeld geen pagina's wil zien die ouder zijn dan 2 jaar. Of om dus zwaar te kunnen laten meewegen hoe recent de pagina is.

Maar dat kan dus niet, want als ik een site maak in php en laat de pagina telkens bijwerken vanuit de database dan blijft de datum van de pagina hetzelfde... Of iemand moet daar een trucje voor uitvinden (een zoekmachine die wijzigingen in een pagina kan zien bijv).
Wat Noyh zegt vind ik trouwens wel een goddelijke functie, hij heeft helemaal gelijk.

Even ontopic: ik heb zo'n idee dat deze zoekmachine geen topper gaat worden, simpelweg omdat de resultaten er niet beter van zullen worden (denk ik).

[Reactie gewijzigd door poepkop]


Als je hem via php touched (zoek op php.net op touch volgens mij) dan kan dat zonder probleem.

Google kijkt wel hoe dicht woorden bij elkaar staan, wat zijn invloed heeft op de zoekresultaten. Maar zelf aan kunnen passen zou inderdaad handig zijn.

Was dit niet wat www.askjeeves.com vroegah al had?

Een van de meest bekende ja. Ook leuk: http://swoogle.umbc.edu/
«  1  2  »

Op dit item kan niet meer gereageerd worden.

Volgende 21:02
Vorige 17:38
VNU Media logo Powered by True

© 1998 - 2009 Tweakers.net - Alle rechten voorbehouden

Uitgever van: