Sten Niklasson: Zipf och DNA
Många läsare har säkert hört talas om Murphy´s lag som innebär att om något kan gå åt fanders, så kommer det att göra det. Men ganska få torde ha stött på Zipf´s lag som säger att det vanligaste ordet i ett språk förekommer dubbelt så ofta som det näst vanligaste ordet, tre gånger så ofta som det tredje vanligaste och så vidare. Det uppges att denna lag gäller de flesta språk, från sanskrit till modern franska.
George Kingsley Zipf kom från en tysk bryggarfamilj och blev professor i tyska vid Harvard. Han var en udda figur som i olikhet mot flertalet av sina kollegor levde utanför Boston på en lantgård, där han odlade vin, födde upp höns och svin, dock utan större framgång. Han ville inte äga böcker och lånade i stället vad han behövde från bibliotek. Låneböckerna upptog hans liv nätterna igenom och handlade huvudsakligen om språks egenheter.
Zipf beskrevs av en kollega som en person som plockade en ros enbart för att kunna räkna antalet kronblad. Och just så behandlade han litterära verk. När han gav sig i kast med James Joyces Ulysses, blev slutresultatet att boken innehöll 260 430 ord, varav 29 899 olika. Han fortsatte med Iliaden, Beowolf och andra klassiska jätteverk och fann att deras struktur stämde med hans ”lag”.
När Zipf dog år 1950, upptäckte eftervärlden att lagen tycktes stämma också på en rad andra områden, som populationsstudier, jordbävningars magnitud, förekomsten av mönster, färger och motiv i bildkonsten, med mera. Av särskilt intresse var upptäckten att Zipf´s lag sannolikt också gällde på det mikrobiologiska forskningsfältet, framför allt studiet av våra gener.
I april 1953 gjorde Watson, Crick och Franklin sensation, när de beskrev hur människans arvsanlag DNA (deoxiribonukleinsyra), som finns i identiska kopior i varje cellkärna, har formen av en dubbelspiral. DNA innehåller den genetiska informationen i form av ritningar till de proteiner som cellen skall tillverka. Spiralen består av två långa strängar som binds samman av baspar, vilka passar ihop som pusselbitar – A med T och C med G. Detta betyder att den ena DNA-strängen kan utgöra mall för kopiering av den motsatta biten. Om ena sidan exempelvis består av CCGAGT, måste den andra vara GGCTCA. Ordningen på dessa bokstäver utgör den genetiska koden. Detta enkla kodsystem gör det möjligt för cellen att kopiera hundratals DNA baspar per sekund, när den delar sig i kroppens förnyelseprocesser.
DNA-spiralerna är runt två meter långa och förpackas i kromosomer, tjugotre från mamman och lika många från pappan. Allt skall få plats i cellkärnor, som oftast bara är sex tusendels millimeter. Först 1976 upptäcktes att eventuella kinkar och trassliga knutar som tur är kan lösas upp eller förbikopplas av matematiskt begåvade enzymer med namnet topoisomeras.
Däremot gav inte bilden av dubbelspiralen något svar på frågan hur cellen bär sig åt för att tillverka proteiner. Först efter träget experimenterande upptäckte man att cellen kopierar den genetiska informatinen i DNA till en nära släkting vid namn RNA (ribonukleinsyra). RNA består i motsats till DNA bara av en enda sträng, där T ersätts av U. RNA-strängen överbringar DNAs genetiska information till proteinfabriker utanför cellkärnen som kallas ribosomer. Därav namnet messenger RNA. En annan typ av RNA med beteckningen transfer RNA lossar, när de inbördes koderna stämmer överens, sin last av de aminosyror som utgör byggmaterialet till proteinerna.
Denna process driver allt jordiskt liv oavsett om det rör sig om tulpaner, grodor eller riksdagsledamöter.
Många forskare anser att Zipf´s lag vinner tillämpning på hela den process i vilken DNA kommer till uttryck i proteiner. Precis som ord i ett språk, kommer vissa gener i en cell till uttryck gång på gång, medan andra sällan transkriberas.
Zipf undersökte också distributionen av toner i notskriften till musikaliska verk av Mozart, Chopin, Irving Berlin och Jerome Kern. Han fann, mirabile dictu, att förekomsten följde den Zipfianska fördelningen. Hans resultat bekräftades av andra och ledde till att några företagsamma forskare försökte förvandla DNA till toner. Än mera intressanta blev dessa försök, när man vände på processen och ”översatte” noterna i en nocturne av Chopin till DNA. Då upptäcktes att en sekvens i musikstycket så gott som helt överensstämde med den genetiska koden för RNA polymeras. Detta livsviktiga enzym är vad som transskriberar DNA till RNA som i sin tur styr tillverkningen av proteiner.
Det kanske inte är så tokigt som det låter. Forskarna har också funnit att DNAs gener sannolikt började utvecklas som repetitiva fraser, kanske som ett par dussin baspar som duplicerades gång på gång, ungefär som när en tonsättare använder ett ledmotiv eller musikaliskt tema för att bygga upp ett verk. Antikens astronomer ansåg för övrigt att himlakropparnas rörelser gav upphov till överjordiskt skön musik – en musica universalis i kosmos. Om sådan musik finns, kanske den finns närmare än vi tror – i våra gener!
DNAs grundläggande funktion är att bearbeta och kommunicera data i form av genetisk kod och leder i det avseendet tanken till kryptografi och datavetenskap. Det var ingen tillfällighet att en ung genetiker med namnet William Friedman blev en av USAs mest framstående experter när det gällde att knäcka de krypterade meddelanden som i början av 1940-talet skickades från den japanska regeringen till landets ambassad i Washington DC. Samtidigt med Friedman arbetade en ingenjör, Claude Shannon, med design av elektroniska kretsar för att lösa komplicerade matematiska problem. Dessa båda herrar lämnade väsentliga bidrag till modern informationsteori och beräknade bland annat hur kodade meddelanden skulle överföras med så få felaktigheter som möjligt. Detta arbete inspirerade i sin tur biologer att undersöka i vilken mån den genetiska koden i DNA minimerar misstag under cellens liv.
Till sin överraskning fann biologerna att cellerna innehåller en mängd icke-kodat DNA. Detta överflöd kunde, tyckte man, kunde ju ha använts effektivare. Men överflöd medför också fördelar. Så kan till exempel lite extra språkliga kunskaper bidra till att ett ofullständigt eller vanställt meddelande ändå kan tolkas. Läsarna av denna artikel kan till exempel säkert klara ”Fltalt mnnskr hr nte svrt at lsa mningar vlka sknar bkstver”.
Även om naturens syfte med så kallat skräp-DNA inte ännu är fullt klarlagt, är forskarna tämligen eniga om att dess existens gör det mindre sannolikt att mutationer skulle leda till att cellen börjar tillverka felaktiga och kanske farliga aminosyror.
När kartläggningen av det mänskliga genomet nådde offentligheten runt år 2000, uppenbarades andra överraskande fakta. Så visade det sig att 8 % av våra gener inte är unika för människan. De är urgamla virusgener. För människan unika gener svarar bara för 2% av vårt DNA. Människan härstammar alltså i hög grad från virus, inte bara från apor som Darwin lärde oss.
Sten Niklasson är författare och tidigare generaldirektör