AI

LLMs.txt – så styr du AI-crawlers från din sida

Artificiell intelligens har tagit världen med storm, och en stor del av den utvecklingen drivs av att stora språkmodeller (LLMs) tränas på enorma mängder text och data från internet. Det inkluderar med största sannolikhet innehållet på din

LLMs.txt – så styr du AI-crawlers från din sida

Artificiell intelligens har tagit världen med storm, och en stor del av den utvecklingen drivs av att stora språkmodeller (LLMs) tränas på enorma mängder text och data från internet. Det inkluderar med största sannolikhet innehållet på din egen hemsida. Även om synlighet är bra, är det inte alltid man vill att ens hårt förvärvade kunskap och unika texter ska bli gratis bränsle för kommersiella AI-tjänster. Fram till nyligen har det varit svårt att styra detta, men nu börjar en ny standard växa fram: llms.txt.

Vad är llms.txt?

Du som har jobbat med hemsidor känner säkert till filen robots.txt. Det är en standardfil som legat till grund för hur sökmotorer och andra automatiska "spindlar" (crawlers) ska bete sig på en webbplats i årtionden. Med robots.txt kan du tala om för exempelvis Google att de inte ska indexera din kundinloggning eller interna testsidor.

llms.txt är ett förslag till en liknande standard, men med ett mycket mer specifikt syfte: att enbart styra de AI-spindlar som samlar in data för att träna stora språkmodeller.

Tanken är att ge webbplatsägare en mer finkornig kontroll. Du kanske fortfarande vill att Google ska kunna indexera din blogg så att kunder hittar dig via sök, men du vill inte att innehållet från samma blogg ska användas för att träna nästa version av ChatGPT eller Bard (numera Gemini) utan din tillåtelse. Det är precis det här dilemmat llms.txt är tänkt att lösa.

llms.txt vs. robots.txt – vad är den faktiska skillnaden?

Det kan verka som en onödig dubblering att ha två olika filer, men skillnaden i deras syfte är fundamental.

robots.txt

  • Syfte: Blockera eller tillåta all form av crawling och indexering.
  • Konsekvens: Om du lägger till Disallow: /min-viktiga-sida/ i robots.txt för Googles vanliga sökspindel (Googlebot), kommer den sidan med största sannolikhet att försvinna från sökresultaten. Det är ett kraftfullt men trubbigt verktyg.
  • Standard: En väletablerad, universell standard som (nästan) alla seriösa aktörer följer.

llms.txt

  • Syfte: Specifikt blockera eller tillåta crawling för AI-datainsamling.
  • Konsekvens: Att blockera en AI-spindel i llms.txt ska inte påverka din vanliga synlighet på Google. Din sida kan fortfarande ranka högt och hittas av kunder, men innehållet är (i teorin) skyddat från att användas som träningsdata.
  • Standard: Än så länge ett förslag och en bransch-konvention, inte en officiell webbstandard. Det är ett initiativ som vinner mark, men alla följer det inte än.

Man kan se llms.txt som ett mer specialiserat verktyg. robots.txt är den stora grindvakten för hela din tomt, medan llms.txt är en specifik instruktion till de som vill plocka frukten i din trädgård för att sälja den vidare.

Vilka AI-jättar följer llms.txt?

En standard är bara användbar om någon faktiskt följer den. Även om llms.txt fortfarande är nytt, har flera av de största aktörerna redan anslutit sig eller skapat liknande mekanismer.

  • OpenAI (GPTBot): Spindeln som samlar in data till skaparna av ChatGPT, respekterar llms.txt. De respekterar även robots.txt, så du kan blockera GPTBot där om du föredrar det.
  • Anthropic (ClaudeBot): Företaget bakom AI-modellen Claude har också meddelat att deras spindel följer instruktionerna i llms.txt.
  • Common Crawl (CCBot): En av de största offentliga datakällorna som används för AI-träning har länge respekterat robots.txt. De är också en drivande part i diskussionerna om nya, mer specifika standarder.

Ett viktigt undantag: Google-Extended

Google har valt en lite annan väg. Istället för att använda llms.txt har de introducerat en ny, specifik spindel kallad Google-Extended. Denna spindel används för att samla in data för att förbättra deras AI-modeller, som Gemini.

Den goda nyheten är att du kan styra den. Den dåliga är att du måste göra det via din vanliga robots.txt-fil. Instruktioner för Google-Extended ignoreras om de placeras i llms.txt. Detta visar att landskapet fortfarande är lite fragmenterat, och för full kontroll behöver man använda båda filerna.

Så skapar du en llms.txt-fil för din hemsida

Det är faktiskt väldigt enkelt. Du behöver inget mer än en enkel textredigerare (som Anteckningar/Notepad, inte Microsoft Word) och tillgång till filstrukturen på din server.

  1. Skapa en ny, tom textfil.
  2. Döp filen till llms.txt (endast små bokstäver).
  3. Lägg till innehåll. Syntaxen är precis som i robots.txt. User-agent definierar vilken spindel regeln gäller för, och Disallow anger vad de inte får komma åt.
  4. Ladda upp filen till rotkatalogen på din hemsida. Den ska ligga på samma nivå som din robots.txt-fil, så att den blir nåbar via dindomän.se/llms.txt.

Mall för småföretagare

För de allra flesta företag är målet enkelt: tillåt sökmotorer, men blockera AI-datainsamling från hela webbplatsen. Då är denna mall fullt tillräcklig.

Klistra in följande i din llms.txt-fil:

# Blockera alla AI-spindlar som följer llms.txt-standarden
User-agent: *
Disallow: /
  • User-agent: * betyder att regeln gäller för alla spindlar som läser denna fil.
  • Disallow: / betyder att de inte får tillgång till någon del av webbplatsen (eftersom / representerar roten).

Detta täcker de spindlar som specifikt tittar på llms.txt. Men glöm inte Google.

Glöm inte att uppdatera din robots.txt

För att även stoppa Google från att använda ditt innehåll för sina AI-modeller, måste du lägga till följande rader i din befintliga robots.txt-fil:

# Blockera Googles AI-datainsamlare
User-agent: Google-Extended
Disallow: /

Genom att kombinera dessa två åtgärder har du skapat ett robust skydd som täcker de idag största och mest relevanta AI-aktörerna.

Ta kontroll över din digitala närvaro

Att skapa en llms.txt-fil är en liten men viktig handling för att ta tillbaka kontrollen över ditt eget innehåll. Det är en proaktiv åtgärd som visar att du bryr dig om hur ditt digitala arbete används. Det handlar om att sätta gränser i en digital värld som blir alltmer komplex.

Att ha kontroll över sin digitala närvaro, från synlighet i sök till hur ens innehåll används, är grundläggande för alla företag idag. Första steget i den kontrollen är alltid att ha en modern, välbyggd och flexibel hemsida som plattform. Där kan du enkelt implementera ändringar som denna och anpassa dig till framtidens digitala landskap.

Behöver du hjälp att bygga en sådan plattform? Läs mer om hur vi kan hjälpa dig att skapa en ny, framtidssäker hemsida.

Vill du diskutera detta för ert företag?

Vi hjälper företag i Jönköping och hela Sverige med SEO, annonsering och webb.

Ta kontakt