8 min läsning

AI-agenter är längre bort än vi tror

Eller varför enkla saker blir onödigt komplicerade.

Skrivet av

Kristoffer Yi FredrikssonDigital Strateg21 mar, 2025

Vi har blivit lovade att Nästa Stora Grej™ inom AI kommer att bli agenter. Exakt vad det innebär är däremot lite osäkert.

Till att börja med är det som vanligt ingen som bryr sig om att definiera om AI avser den typ av machine learning som leder till genombrott inom medicin och fysik, eller om det handlar om stora språkmodeller (LLMer) som Claude, DeepSeek, Googles Gemini, ChatGPT och så vidare. I den här bloggposten är det LLMer som menas när det står AI, och det är med största sannolikhet vad andra också menar när de pratar om AI-agenter.

En agent är, eller rättare sagt borde vara, en LLM som kan utföra saker på egen hand. Att den har agens. Att den kan agera.

Till exempel kan den gå ut och jämföra elavtal baserat på din konsumtion, och sedan faktiskt flytta ditt avtal till det mest fördelaktiga, samt fortsätta göra detta hela tiden tills du säger stopp.

Ett mer riskfritt exempel skulle vara att du lyssnade på en intressant podcast för över en månad sedan när du var och promenerade i parken, och nu skulle du vilja dela den med en vän men du kan inte minnas vilken podcast det var, bara att personen som intervjuades var professor i språk, typ, och hade tappat förmågan att djupläsa och sedan övat upp den igen. En AI-agent hade hittat och delat den utan problem.

Det verkar ju klart som korvspad, vad är problemet?

Problemet är att det är mycket svårare att interagera med våra olika appar och tjänster än vi tror, och som om inte det vore nog är vi människor också mycket krångligare att interagera med än vad vi själva inser.

Ta exemplet med elavtal. Det finns inget standardiserat sätt att hitta olika leverantörers elpriser. En agent måste med andra ord kunna surfa in på ett antal olika sidor och lyckas hitta rätt information. Den måste även ha tillgång till din nuvarande leverantörs inloggade läge, alternativt Kivra, för att kunna studera vad du betalar i dagsläget. Sedan måste den få tillgång till ditt BankID om den på allvar ska kunna göra mer än bara sammanställa information åt dig (vilket i och för sig skulle vara fantastiskt imponerande bara det). Och som grädde på moset måste agenten förstå saker som hållbar el, eller att stödja kraftbolaget i den lilla orten där du tillbringade din barndoms somrar är viktigt för dig.

Det andra exemplet är betydligt enklare, fast ändå snudd på omöjligt. Den som söker på engelska efter “professor som pratar om…” och så vidare hittar snabbt den korrekta podden via Google. Bing hittar en annan podcast med samma professor, som verkar prata om samma ämne, men det var inte den du lyssnade på. Kanske är det en lite pinsam podcast i stil med “Böcker är för idioter” som du inte vill associeras med. Och hur ska podcasten delas? Via en podcast-app? Har kompisen samma app? YouTube-länken kanske? Eller ett mail? Vill man att en AI kan logga in på ens mailadress och ha tillgång till ens kontaktlista? (Reds. anmärkning: Nej, nej det vill man inte.)

Allt det går såklart att lösa, men för det första kommer det att ta tid, och för det andra finns det flera affärsintressen som talar emot en sådan lösning. Till att börja med vore det uppenbarligen oansvarigt av BankID att tillåta AI-agenter att logga in som användare*.

Och varför ska ett företag som lever på sin app, och att hålla folk kvar i den appen, göra det möjligt för Apple eller Google att kringgå deras gränssnitt? Och varför skulle Google ge Siri tillgång till all information i Gmail? För att inte tala om Meta och WhatsApp. Det kommer inte att hända.

Den totala avsaknaden av entusiasm för att skapa VisionOS-versioner av YouTube, Spotify och Netflix visar tydligt att de stora spelarna blir allt försiktigare med att hjälpa sina konkurrenter. De inte bara vägrade att göra VisionOS-specifika versioner av sina appar utan gick aktivt in och stängde av folks möjlighet att använda deras befintliga iPad-appar i sina VR-hjälmar. Det tål att upprepas. iPad-appar var automatiskt tillgängliga för VisionOS, operativsystemet som kör på Apples VR-hjälm, och flera företag gick aktivt in och stängde av den funktionen.

Företagen har insett hur viktigt det är att behålla så mycket kontroll som möjligt över sina plattformar. De vill inte hjälpa varandra, oavsett hur smidigt det blivit för oss, deras kunder.

Men okej, säg att man är ett företag som folk litar på. Säg att man har tillgång till deras kontakter, email, meddelanden, kreditkort, karta, kalender, TV-vanor, poddapp och webbläsare. Säg att man beslutar sig för att bygga en agent som kan använda all den informationen för att hjälpa till med saker som “Vad hette nu han som jag träffade nere på pizzerian för två månader sedan?” eller “Hur dags var det jag skulle hämta mamma på flyget?”

Det är exakt den situationen Apple befann sig i, och exakt den situationen de inte kunde reda ut. Om inte ett företag med det enorma övertag som Apple har lyckas lösa detta, vad har då Sam Altman för chans?

Det som krävs är att Anthropic, OpenAI, Amazon, Microsoft, Apple och Google satte sig ner och enades om en standard för hur man kan erbjuda tjänster via chatbottar. Hur troligt låter det? Precis, inte alls.

Det kommer med andra ord att ta tid innan vi har agenter. Till att börja med kommer de vara väldigt begränsade, i många fall knutna till en viss tjänst eller app. Men någon gång i framtiden blir de nog verklighet.

Folk har jobbat på det i flera decennier, och vi är definitivt närmare nu än 2006, när Google drömde om att deras Assistant skulle kunna boka in rörmokare, eller när de lät sin tjänst Duplex boka restauranger och hårfrisörer 2018.

*En dator kan aldrig hållas ansvarig, så vems ansvar är det om en agent flyttar ett elavtal till någon scam?