Beräkna bokstavsfrekvenser

Visa:

Bokstavsfrekvens

Bokstavsfrekvensen ger information om hur ofta olika bokstäver förekommer i en text. Verktyget på den här sidan visar hur många gånger en bokstav förekommer i texten och vad det motsvarar i procent av det totala antalet bokstäver. I utgångsläget listas de vanligast förekommande bokstäverna först men det går att visa dem i bokstavsordning om man vill. Det är även möjligt att inkludera specialtecken vilket innebär att tecken som inte är bokstäver som t.ex. bindestreck, mellanslag och punkter också tas med i beräkningarna.

N-gram

När en text analyseras kan det ibland vara intressant att titta på flera bokstäver efter varandra, och se hur ofta de förekommer i texten. En grupp om två bokstäver kallas för ett bigram, medan en grupp om tre bokstäver kallas för ett trigram. Ibland används större bokstavsgrupper än trigram men när det gäller att analysera vanligt skriftspråk är det inte lika vanligt.

Användningsområden

Olika bokstäver används olika mycket i olika språk så genom att jämföra bokstavsfrekvenserna av en text är det möjligt att avgöra vilket språk som texten är skriven på. Det är även möjligt att avgöra författarskap eftersom varje person har sitt eget språkbruk vilket ger upphov till unika bokstavsfrekvenser som skiljer sig något från genomsnittet. Det kan vara svårt att avgöra något med hundraprocentig säkerhet eftersom all text inte har en frekvensfördelning som stämmer överens med en genomsnittlig text. Det är även svårt att veta vad en genomsnittlig text är eftersom det beror på olika faktorer som vad texten handlar om och i vilket sammanhang den förekommer. Genom att använda bigram eller trigram, istället för enstaka bokstäver, så fås ofta ett mer tillförlitligt resultat men det kräver mer lagringsutrymme, och många fler texter måste gås igenom innan frekvensfördelningen stabiliseras.

Ett annat användningsområde är inom kryptografin för att avkoda krypterade meddelanden. Om man vet vilka bokstäver som är mest vanliga så är det lättare att sluta sig till vilka tecken som används och på så sätt komma fram till en lösning.