Google is de afgelopen jaren erg geïnteresseerd geraakt in kunstmatige intelligentie, en met name in toepassingen voor gewone mensen. Bijvoorbeeld dat het draait om machine learning.

Nu hebben onderzoekers van het Texas Advanced Computing Center echter laten zien hoe kunstmatige intelligentie-technieken ook betere zoekresultaten kunnen opleveren. Ze hebben AI, crowdsourcing en supercomputers gecombineerd om een ​​beter systeem voor informatie-extractie en classificatie te ontwikkelen.

Op de jaarlijkse vergadering van 2017 voor de Vereniging van Computerlinguïstiek in Vancouver deze week leidde universitair hoofddocent Matthew Lease een team dat twee papers presenteerde die een nieuw soort informatieopzoeksysteem beschrijven.

Intelligente systemen

"Een belangrijke uitdaging bij het verwerken van natuurlijke taal is het vinden van belangrijke informatie in vrije tekst, waardoor we deze in databases kunnen extraheren en combineren met andere gegevens om intelligentere beslissingen te nemen en nieuwe ontdekkingen te doen," zei Lease..

"We hebben crowdsourcing gebruikt om medische en nieuwsartikelen op schaal te annoteren, zodat onze intelligente systemen nauwkeuriger de belangrijkste informatie in elk artikel kunnen vinden."

Ze waren in staat om die crowdsourced-gegevens te gebruiken om een ​​neuraal netwerk te trainen om de namen van dingen te voorspellen en bruikbare informatie te extraheren uit teksten die helemaal niet zijn geannoteerd.

In het tweede artikel toonden ze aan hoe verschillende taalkundige middelen te wegen, zodat de automatische tekstclassificatie beter is. "Neurale netwerkmodellen hebben tonnen parameters en hebben veel gegevens nodig om in te passen", aldus Lease.

Consistent betere resultaten

Tijdens het testen van zowel biomedische zoekopdrachten als filmrecensies, leverde het systeem consequent betere resultaten dan methoden waarbij geen rekening werd gehouden met de weging van de gegevens.

"We hadden het idee dat als je op de een of andere manier zou kunnen redeneren dat sommige woorden a priori verwant zijn met andere woorden, dan in plaats van een parameter voor elk van die woorden afzonderlijk te moeten hebben, je de parameters over meerdere woorden kunt verbinden en daarin manier hebben minder gegevens nodig om het model te leren, "zei Lease.

Hij voegde eraan toe: "De industrie is goed in het kijken naar zaken voor de korte termijn, maar ze hebben niet dezelfde vrijheid als academische onderzoekers om onderzoeksideeën na te streven die een hoger risico inhouden, maar op de lange termijn transformerender kunnen zijn."

  • Chinees team bouwt 's werelds grootste virtuele universum