
Det finns alldeles för många ord i världen. För mycket fakta och åsikter och lögner och missuppfattningar. Osorterat och stökigt och undanglidande. Ibland är orden inte ens formulerade, de finns bara som tankar, samförstånd och självklarheter.
Jag vet inte hur många gånger jag har försökt leta mig igenom alla dessa ord för att nå fram till något relevant. Något sant. Något informativt eller åtminstone något intressant.
Ibland hittar jag guld. Svaret på exakt den fråga jag ställde. Texten jag inte hade insett att jag behövde. Informationen som förklarade något viktigt. Orden som vred något rätt hos mig.
Det är bara så mycket skräp på vägen. Rapporter med alltför långgående slutsatser byggda på tveksamma underlag. Tvärsäkra utlåtanden som dränker invändningar och nyanseringar. Känslotriggande texter som vill driva handling, må den vara politisk eller konsumistisk. Medvetna lögner och omedvetna missförstånd. Eller så är det bara alldeles för mycket för att vara hanterbart.
Leta åt mig
Tänk att få hjälp att hitta rätt! Slippa det dåliga och nå fram till det bra! OpenAI:s tjänst DeepResearch ska hjälpa till med det här. Den gör en långtgående, iterativ genomgång av texter och information på nätet och sammanfattar informationen i en omfattande rapport. Tjänsten riktar sig till personer med kunskapsintensiva arbeten, inom finans, vetenskap, policy och ingenjörsyrkan, som behöver noggrann, precis och tillförlitlig efterforskning. (Hugging Face har redan gjort en klon av DeepResearch.)
För OpenAI är DeepResearch ett steg mot en AGI kapabel att skapa ny vetenskaplig forskning. Förmågan att sammanfatta kunskap är en förutsättning för att skapa ny kunskap berättar de. Och vill man inte använda verktyget för forskning kan man alltid använda det för att göra efterforskningar inför ett inköp eller en resa.
Och verktyget har börjat komma till användning. Andrew Maynard använde verktyget för att skriva en avhandling om polikriser på fyra dagar.1 Någon tar fram dagliga rapporter om olika underrapporterade frågor, ett bolag har insett att det är svårt att hinna läsa alla dessa utmärkta rapporter, och erbjuder ett verktyg som sammanfattar dina DeepResearch-sammanfattningar.
Noggrann, precis och tillförlitlig efterforskning
It can sometimes hallucinate facts in responses or make incorrect inferences, though at a notably lower rate than existing ChatGPT models, according to internal evaluations. It may struggle with distinguishing authoritative information from rumors, and currently shows weakness in confidence calibration, often failing to convey uncertainty accurately.
DeepResearch är en kombination av LLM och det OpenAI kallar reasoning, som handlar om att skapa en chain-of-thougths, att dela upp uppgiften i mindre delar. Precis som de lyfter i sin bloggpost kan verktyget hallucinera, dra felaktiga slutsatser och ha svårt att bedöma källors kvalitet.
Den saknade informationen
Ett annat problem som användare har sprungit på är saknad information.
Ben Thompson driver bloggen Stratechery om den strategiska och affärsmässiga sidan av teknik och media. Han testade DeepResearch på några olika användarfall, bland annat för att göra en rapport om en viss industri. Rapporten levererades, köttig men felaktig. En stor spelare saknades - den är inte börsnoterad och har relativt låg digital närvaro. En person med kännedom om området hade inkluderat den, men DeepResearch missade den helt.
The issue with the report I generated — and once again, I’m not going to share the results, but this time for reasons that are non-obvious — is that it completely missed a major entity in the industry in question. This particular entity is not a well-known brand, but is a major player in the supply chain. It is a significant enough entity that any report about the industry that did not include them is, if you want to be generous, incomplete.
Adi Robertson på the Verge gjorde en liknande upptäckt. Hon lät DeepResearch skapa en rapport om Section 230, som reglerar att tjänsteleverantörer inte är ansvariga för det innehåll deras användare postar på nätet2. Hon ville ha en sammanfattning av hur olika domstolar har förhållit sig till Section 230 och vilken konsensus som finns kring den. Problemet är att DeepResearch inte tog med domslut från de senaste åren - en period då Section 230 ställts inför allt större press från domstolar. Till skillnad från i Ben Thompsons fall fanns informationen tillgänglig, men DeepResearch missade att ta med den.
Världsbild
Professor Melanie Mitchell har skrivit två mycket intressanta artiklar om AI-modellers interna världsmodeller, om modellerna har en intern förståelse för den värld de hanterar. Ilya Sutskever, tidigare OpenAI, hävdar att modellerna har eller kommer att få en inre världsbild bara tack vare all den information de behandlar.
Melanie Mitchell går igenom forskning som har gjorts på området. Hennes slutsats är att nej, än så länge finns inget som tyder på att det finns några världsmodellerande modeller. Det handlar om vikter och tillgång till “påsar med heurestik” snarare än en intern förståelse för världen i sig.
Kai Reimer vid universitetet i Sydney upptäckte problemet med världsmodell när han bad DeepResearch göra en rapport om Diablo 4. Den levererade en rapport med ett grundläggande, stort fel. Den kom med ett förslag som bröt mot spelets regler, inte för att den utgick från felaktig information, utan för att den drog en egen, felaktig slutsats av befintlig information.
Inaccuracies and mistakes will be embedded in the products of this combinatorial labour in ways that are difficult to spot, and therefore potentially dangerous.
Om rapporten handlar om ett spel må kanske felaktigheter vara hänt, men om rapporten handlar om något viktigare blir den här typen av svårupptäckta fel mer problematiska.
Derek Lowe beskriver i Science hur DeepResearch lyckas blanda ihop två olika användningar av termen stability i en rapport om toxiciteten hos talidomid. Termen användes för olika aspekter, men i rapporten gled aspekterna över i varandra. Rapporten missade också att lyfta den kunskapsutveckling som har skett inom området, och värderade gamla källor lika högt eller högre än nya källor.
As with all LLM output, all of these things are presented in the same fluid, confident-sounding style: you have to know the material already to realize when your foot has gone through what was earlier solid flooring. That, to me, is one of their most pernicious features.
Att bygga ett hus med ruttna brädor
Det finns så mycket dåligt material i världen. Enstaka studier lyfts upp till sanningar, resultat som inte kan upprepas, artiklar som publiceras utan peer review, mot betalning, i tveksamma journaler. Det finns white papers som egentligen bara är längre annonser och tendentiösa rapporter. Dålig data, tveksamma jämförelser och slutsatser som dras alltför långt. Att leta på rätt platser, i rätt databaser, kan förbättra urvalet och därmed resultatet, men inte ens det är en garanti. Det finns många ruttna brädor därute.
OpenAI:s förhoppning är att skapa ett verktyg användbart för forskning och annat kunskapsintensivt arbete, där noggrannhet och tillförlitlighet är avgörande. Och den är noggrannare än deras tidigare tjänster, tar längre tid på sig, letar djupare och itererar uppgifterna fler gånger.
Men återkommande bland de som har testat verktyget är att för den som redan har ingående kunskap om ett område blir bristerna snabbt alldeles för tydliga, och för den som saknar ingående kunskap om ett område blir bristerna snabbt alldeles för svåra att identifiera. Nivån på grundmaterial kommer att spela roll.
Än så länge kan DeepResearch inte avgöra kvaliteten på en källa i någon högre utsträckning. Däremot kan den bidra till att skapa nytt material med tvivelaktigt ursprung och övertygande presentation.
This is the other reality of AI, and why it is inescapable. Just as the Internet’s transparency and freedom to publish has devolved into torrents of information of questionable veracity, requiring ever more heroic efforts to parse, and undeniable opportunities to thrive by building independent brands — like this site — AI will both be the cause of further pollution of the information ecosystem and, simultaneously, the only way out.
Kurerat material och värdefullt innehåll
Det finns för många ord. För mycket material. Och alldeles för mycket skräp. Det riktigt värdefulla kommer att bli det som är svårt eller omöjligt att hitta digitalt. Det som bygger på fördjupad kunskap. Det som är tydligt och exakt och viktigt.
Problemet är att det är dyrt att ha en fördjupad kunskap, att vara expert, att forska, lära sig, beskriva och förklara. Det är dyrt att nå ut och det är dyrt att upprätthålla ett ekosystem som kan förmedla kunskap och expertis.
Jag hoppas att värdet kommer att vara tillräckligt uppenbart för att vi ska upprätthålla och kanske till och med stärka ekosystem, strukturer och tjänster för att skapa och värdera kunskap. Till exempel universitet, förlag, tidningar och tidskrifter.
Så att människorna; forskarna, författarna, journalisterna, experterna, de nyfikna och de nytänkande, kan fortsätta med sitt viktiga.
Tack för att du läser! Dela och tipsa gärna om du tycker om det jag skriver!
Jag håller föredrag och samtal om AI och kommer gärna till ditt företag eller organisation. Kontakta mig om du vill veta mer.
Den är i alla fall lång som en avhandling och är formaterad och har källor
Det är en förenklad beskrivning, men eftersom det inte är poängen med texten får det duga så här.