Deel dit artikel
-

Google leert AI telefoonschermen lezen

Onderzoekers van Google tonen in een nieuw onderzoek aan, dat ze een slimme computer zo kunnen instrueren dat deze de grafische interface van een smartphone kan lezen.

Meer specifiek onderzochten de googlers hoe ze een taalmodel, een zogeheten LLM, daarvoor kunnen inzetten. Het lastige hieraan is, dat een taalmodel geen grafische elementen op een telefoonscherm snapt. Toch slaagde het team erin om de computer gericht taken te laten uitvoeren.

Voor het onderzoek werden vier experimenten uitgevoerd: een vraag stellen, een samenvatting geven van wat op beeld wordt getoond, een vraag-antwoord-sequentie uitvoeren en, als laatste, een opdracht laten uitvoeren in de grafische interface.

De geslaagde experimenten zijn voor Google een stimulans om het onderzoek te verwerken in concrete producten. Deze wijzen de kant op naar tooling voor ontwikkelaars.

“Een interactiedesigner kan snel een werkende mock-up maken om nieuwe ideeën te testen bij eindgebruikers. Bovendien kunnen ontwikkelaars en onderzoekers [dat soort werk] beter vooronderzoeken zonder dat ze eerst moeite moeten steken in de bouw van nieuwe datasets en modellen.”

*) Foto door: bruce mars, op Unsplash

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond