Studietaak 4 - Onderdeel ´Voorspellingen op basis van aminozuursequenties´

1 Fysisch-chemische eigenschappen

De snelheid waarmee nieuwe eiwitsequenties (afgeleid van DNA-sequenties) beschikbaar komen, is veel groter dan de snelheid van experimenten in het laboratorium die gericht zijn op de karakterisering van eiwitten (secundaire structuur, tertiaire structuur, localisatie in de cel etc.). Het verschil tussen de informatie in de vorm van sequenties en in de vorm van bijvoorbeeld experimenteel bepaalde 3D-structuren is heel mooi te zien via een vergelijking van het aantal entries in SwissProt eiwitsequentie-database en de PDB-database (= bepaalde 3D-structuren). Op dit moment (herfst 2008) zijn die aantallen respectievelijk 398.181 en 53.521! Die kloof tussen aan de ene kant het grote aantal eiwitsequenties en aan de andere kant de beperkte kennis over de eigenschappen van al die eiwitten kan enigszins worden gedicht via voorspellende*) methodes die informatie over de karakteristieken van eiwitten afleiden uit eiwitsequenties. Daarover gaat dit onderdeel.

*): Denk eraan: voorspellingen zijn een hulpmiddel, geen bewijs! Het bewijs wordt uiteindelijk altijd in het lab geleverd!

Let op: Als de aminozuursequentie van een eiwit in een database wordt gedeponeerd, wordt er zoveel mogelijk informatie over dat eiwit in de entry vermeld. Vooral Swiss-Prot-entries bevatten veel informatie. Dit geldt ook voor informatie over eventuele post-translationele modificaties, zoals glycosylering. Maar pas op: Voor al deze informatie geldt: het kan gaan om via experimenten in het lab achterhaalde informatie (dus informatie gebaseerd op daadwerkelijk experimenteel bewijs) OF om voorspelde eigenschappen van een eiwit. Je moet in een database-entry over een eiwit altijd heel goed kijken of de daar vermelde eigenschappen echt zijn aangetoond of alleen maar zijn voorspeld. Dit wordt meestal aangegeven via de term experimental evidence (en bij informatie die puur uit een voorspelling komt vaak via de term ´no experimental evidence´).

Een mooie groep tools op dit gebied is verzameld op de ExPASy Molecular Biology Server (‘Expert Protein Analysis System) van het academisch ziekenhuis en de universiteit van Genève. De beschikbare tools zijn zowel ter plekke ontwikkeld als verzameld in de vorm van links naar elders. De primaire doelen van ExPASy zijn:
1. ondersteuning van de analyse en identificatie van onbekende eiwitten die geïsoleerd zijn m.b.v. 2D-gelelektroforese (in de proteomics; meer hierover later in de module)
2. voorspelling van de fysisch-chemische eigenschappen van eiwitten op basis van hun sequenties

De betreffende tools zijn verzameld in het ExPASy-onderdeel Proteomics tools

De tool die ik hier behandel - ProtParam - is zoals gezegd puur gebaseerd op de aminozuursequentie van een eiwit, dus niet op de mogelijke interacties tussen de zijketens van de aminozuren in het eiwit.

ProtParam:

De ExPASy-tool ProtParam berekent (voorspelt) diverse fysische en chemische eigenschappen van een eiwit op basis van de sequentie. Er wordt gebruik gemaakt van diverse methodes uit de wetenschappelijke literatuur. ProtParam berekent:

Op de site wordt van een aantal berekeningen kort uitgelegd hoe ze werken. Meer informatie over hoe Protparam al deze karakteristieken berekent, vind je in dit document.

In dit programma kan men – zoals in vrijwel alle ExPASy-programma’s  – kiezen tussen het invoeren van een eigen sequentie en het invoeren van een SWISS-PROT entry (via ID of accession number). In het laatste geval komt er bij het opstarten van de analyse eerst nog een scherm waarin de gebruiker kan kiezen om alleen een bepaald segment van de betreffende sequentie te gebruiken. Men kan een van de gebieden kiezen die in de SWISS-PROT entry zijn benoemd (aangeduid met FT van feature). Zo kun je bijvoorbeeld een signaalsequentie weglaten uit de berekening. Als alternatief kan men zelf aangeven van waar tot waar het te gebruiken segment moet lopen. Als in dit scherm niets wordt ingevuld, wordt de hele sequentie gebruikt

Interpretatie van de resultaten van ProtParam:

Molecuulgewicht (molecular weight):
Het programma telt eenvoudigweg de molecuulgewichten van alle aminozuren in het eiwit bij elkaar op. MAAR....

Deze punten gelden ook voor het berekenen van de andere eigenschappen! Bij het gebruik van dit programma is het dus belangrijk om je biologische kennis te gebruiken bij het interpreteren van de resultaten!

Extinctiecoëfficiënt:
De extinctiecoëfficiënt vertelt je hoeveel licht je eiwit absorbeert bij een bepaalde golflengte. Een inschatting hiervan is nuttig als je je eiwit wil volgen m.b.v. een spectrofotometer als je het aan het zuiveren bent. Bedenk dan wel dat de waarde die ProtParam berekent slechts een schatting is. Het telt namelijk gewoon ijskoud de bijdrages van de afzonderlijke aminozuren bij elkaar op. Hierbij houdt het programma dus geen rekening met de biologische werkelijkheid dat het gedrag van aminozuren veranderd kan worden door hun onmiddellijke omgeving (= andere aminozuren); de invloed van naburige aminozuren op de extinctiecoëfficiënt van een aminozuur is onvoorspelbaar. De exacte extinctiecoëfficiënt moet gewoon ouderwets experimenteel worden bepaald. Het is wel zo dat de voorspelde extinctiecoëfficiënt voor de meeste eiwitten wel overeenkomt met of dicht in de buurt ligt van de voorspelde extinctiecoëfficiënt.

Instabiliteit:
Deze parameter levert een grove inschatting van de stabiliteit van het eiwit in de reageerbuis. Een score van onder de 40 betekent in het algemeen dat je te maken hebt met een stabiel eiwit.

Halfwaardetijd (half-life):
Dit is een ruwe voorspelling van de tijd die nodig is voor het verdwijnen van de helft van het eiwit nadat het gesynthetiseerd is in de cel. Deze voorspelling wordt gegeven voor drie 'situaties' (zoogdier-reticulocyten in vitro, gist in vivo en Escherichia coli in vivo). Je moet als gebruiker zelf kiezen welke halfwaardetijd het beste past bij jouw experimentele situatie.

  Oefenen met ProtParam met een melkzuurbacterie-enzym

1. Typ de SWISS-PROT ID P16271 in in het kleine zoekscherm van ProtParam en klik op de knop ‘Compute parameters’. Dit eiwit is een membraangebonden proteïnase van de bacterie Lactococcus lactis.

2. Je krijgt nu het scherm waarin je kunt aangeven of je een bepaald gedeelte van de betreffende sequentie wilt gebruiken: ‘Selection of endpoints on the sequence’. Je ziet dat het hier gaat om een prepro-eiwit.

FT SIGNAL 1-33  
FT PROPEP 34-187  
FT CHAIN 188-1902 PI-TYPE PROTEINASE.
FT DOMAIN 188-1876 EXTRACELLULAR (POTENTIAL).
FT TRANSMEM 1877-1895  MEMBRANE ANCHOR (POTENTIAL).
FT DOMAIN 1896-1902 CYTOPLASMIC (POTENTIAL).
FT DOMAIN 1867-1872   CONSERVED IN GRAM-POSITIVE COCCI SURFACE

De signaalsequentie loopt van aminozuur 1-33, het propeptide van 34-187 en de rest van het eiwit (dat 1902 aminozuren lang is) van aminozuur 188-1902.

3. Om nu de eigenschappen te berekenen van alleen het mature (= rijpe) eiwit (dus zonder de signaalsequentie en het pro-gedeelte) klik je op het segment 188-1902. Noteer van het mature eiwit:

  • het voorspelde molecuulgewicht
  • het voorspelde iso-elektrische punt
  • de voorspelde stabiliteit van het eiwit in de reageerbuis

De informatie over de halfwaardetijd is bij dit voorbeeld niet nuttig, omdat dit een extracellulair, aan de membraan verankerd eiwit is en deze parameter geldt alleen voor intracellulaire eiwitten!

4. Om dit nu te vergelijken met de resultaten voor het hele eiwit ga je via de ‘Vorige’ knop van je browser terug naar het scherm ‘Selection of endpoints on the sequence’. Als je nu op de RESET knop klikt en daarna op SUBMIT, rekent het programma met de hele sequentie. Noteer ook nu weer, maar nu dus van het hele prepro-eiwit:

  • het voorspelde molecuulgewicht
  • het voorspelde iso-elektrische punt
  • de voorspelde stabiliteit van het eiwit in de reageerbuis

Klik hier om je antwoorden te checken.

Natuurlijk is het ook nuttig om ProtParam eens los te laten op de aminozuursequentie van het enzym dat jullie willen gaan zuiveren bij het project.

2 Glycosylering

Niet alleen de ExPASy-site biedt mooie tools aan voor de analyse van eiwitsequenties. Een tweede mooie site hiervoor is die van het Center for Biological Sequence Analysis (CBS) van de Technische Universiteit van Denemarken (DTU). Ga naar deze site toe en klik op het roze vakje CBS PREDICTION SERVERS. Je ziet hier dat het CBS voorspellingen kan leveren voor DNA-sequenties (met name voorspellingen op het gebied van het vinden van genen en splice sites en de analyse van micro array data) en voor aminozuursequenties. Ook bij de aminozuursequenties zijn de voorspellingsprogramma´s verdeeld over verschillende categorieën, die bijna allemaal in deze module aan de orde komen.

Overigens is een aantal tools van het CBS ook bereikbaar via de ExPAsy Proteomics Server > Tools and software packages > Proteomics and sequence analysis tools > Post-translational modification prediction > NetNGlyc

Veel van de voorspellingsprogramma´s van het CBS zijn gebaseerd op zogenaamde neurale netwerken. Neurale netwerken zijn kortgezegd programma´s die op een eenvoudige manier onze hersenen simuleren. In het geval van neurale netwerken voor voorspellingen op basis van sequenties wordt zo´n neuraal netwerk ´getraind´ met sequenties waarvan de functie bekend is, bijvoorbeeld sequenties van gebieden in eiwitten die N-geglycosyleerd zijn. Het netwerk ´leert´ hierdoor hoe zo´n gebied eruit ziet: welke aminozuren komen vaak voor op welke posities in zo´n gebied? Het programma beoordeelt vervolgens een door de gebruiker ingevoerde sequentie en zoekt naar gebieden die voldoen aan de eisen voor - in dit voorbeeld - gebieden waarin N-glycosylering plaatsvindt. Hoe groter de zogenaamde ´trainingsset´ van sequenties waarmee het programma is getraind, hoe nauwkeuriger de voorspelling. Het CBS-programma dat N-glycosyleringssites voorspelt heet NetNGlyc. Dit netwerk is getraind met de sequenties van bekende humane N-geglycosyleerde eiwitten. Je kunt het dus niet gebruiken voor de voorspelling van N-glycosylering bij niet-humane eiwitten. Het voordeel van dit neurale netwerk in vergelijking met Prosite is dat het meer dan alleen de consensussequentie N-x-[ST] in zijn voorspelling betrekt. Dit is het gemakkelijkst uit te leggen door het gewoon te demonstreren onderstaande opdracht. 

Opmerkingen bij NetNGlyc:

Voorspelling van N-glycosyleringssites in het humane motor-eiwit prestine

Prestine zorgt voor de omzetting van auditieve stimuli in lengteveranderingen in de buitenste haarcellen in onze oren en zorgt daarmee voor geluidsversterking. Het is een transmembraaneiwit dat in het extracellulaire deel op verschillende plaatsen geglycosyleerd is. In 2004 is uitgezocht welke potentiële N-glycosyleringssites in dit eiwit ook daadwerkelijk geglycosyleerd zijn. Maar laten we eerst maar eens de potentiële sites opzoeken.

De NetNGlyc-voorspelling:

Gebruik de NetNGlyc-server om de N-glycosyleringssites in humaan prestine te voorspellen via onderstaande sequentie van dit motor-eiwit.

MDHAEENEILAATQRYYVERPIFSHPVLQERLHTKDKVPDSIADKLKQAFTCTPKKIRNI IYMFLPITKWLPAYKFKEYVLGDLVSGISTGVLQLPQGLAFAMLAAVPPIFGLYSSFYPV IMYCFLGTSRHISIGPFAVISLMIGGVAVRLVPDDIVIPGGVNATNGTEARDALRVKVAM SVTLLSGIIQFCLGVCRFGFVAIYLTEPLVRGFTTAAAVHVFTSMLKYLFGVKTKRYSGI FSVVYSTVAVLQNVKNLNVCSLGVGLMVFGLLLGGKEFNERFKEKLPAPIPLEFFAVVMG TGISAGFNLKESYNVDVVGTLPLGLLPPANPDTSLFHLVYVDAIAIAIVGFSVTISMAKT LANKHGYQVDGNQELIALGLCNSIGSLFQTFSISCSLSRSLVQEGTGGKTQLAGCLASLM ILLVILATGFLFESLPQAVLSAIVIVNLKGMFMQFSDLPFFWRTSKIELTIWLTTFVSSL FLGLDYGLITAVIIALLTVIYRTQSPSYKVLGKLPETDVYIDIDAYEEVKEIPGIKIFQI NAPIYYANSDLYSNALKRKTGVNPAVIMGARRKAMRKYAKEVGNANMANATVVKADAEVD GEDATKPEEEDGEVKYPPIVIKSTFPEEMQRFMPPGDNVHTVILDFTQVNFIDSVGVKTL AGIVKEYGDVGIYVYLAGCSAQVVNDLTRNRFFENPALWELLFHSIHDAVLGSQLREALA
EQEASAPPSQEDLEPNATPATPEA

Analyse van de output:

NetNGlyc geeft in principe dezelfde lijst van potentiële N-glycosyleringssites als Prosite, namelijk alle sites in het eiwit die voldaan aan het patroon N-x-[ST]. Echter, het programma heeft zijn aangeleerde kennis over de omgeving van bekende N-glycosyleringssites in humane eiwitten gebruikt om een score te geven aan elke potentiële site. Ook zien we dat het programma een virtuele, negenkoppige jury heeft: hoe meer juryleden het met een bepaalde voorspelling eens zijn, hoe meer plusjes of minnetjes in de laatste kolom. als alle negen juryleden een potentiële N-glycosyleringssite goedkeuren, krijgt deze twee plusjes in de laatste kolom; dit betekent uiteraard dat deze sites door het programma worden aangewezen als zeer waarschijnlijk N-geglycosyleerd.

  • Noteer of kopieer de positienummers van de potentiële N-glycosyleringssites (2e kolom). Voldoen ze aan de consensus-sequentie N-x-[ST]?
  • Verklaar het verschil met de lijst van potentiële N-glycosyleringssites uit Prosite.
  • Waarom keurt het programma de vierde potentiële N-glycosyleringssite af? Is dit eigenlijk wel een potentiële N-glycosyleringssite?
  • Welke twee N-glycosyleringssites geeft het programma de meeste kans?

Effe checke....

  • Bekijk welke N-glycosyleringssites  in de SwissProt-entry van dit eiwit staan vermeld. Helaas staan deze sites hier nog vermeld als ´potential´, maar in dit artikel is experimenteel aangetoond dat deze twee sites daadwerkelijk geglycosyleerd zijn. 
  • Zoek via de SwissProt-entry ook uit waarom NetNGlyc de derde potentiële glycosyleringssite afkeurt (tip: zoek in de entry de cellulaire locatie van deze site uit).
  • Vergelijk de voorspellingen van NetNGlyc met de daadwerkelijk geglycosyleerde sites en trek je conclusies. 

 

Voorspelling van N-glycosyleringssites in humaan transferrine

In studietaak 3 hebben we gezien dat humaan transferrine wordt gebruikt bij de diagnose van glycosyleringsdefecten. Voorspel de N-glycosyleringssites van dit eiwit met behulp van de NetNGlyc-server. Bekijk vervolgens in de SwissProt-entry van dit eiwit (P02787) wat de experimenteel vastgestelde N-glycosyleringssites zijn. Conclusie?

Voorspellingen rond eiwitsortering en -adressering

SignalP:

Het CBS heeft ook SignalP ontwikkeld – een krachtige (op dit moment de krachtigste) tool voor de detectie van signaalpeptiden en hun knipplaatsen (cleavage sites). Ook het algoritme van SignalP werkt met neurale netwerken. Er zijn aparte neurale netwerken beschikbaar voor Gram-negatieve prokayrote, Gram-positieve prokaryote en eukaryote sequenties. De verschillende neurale netwerken worden ‘getraind’ m.b.v. sequenties met bekende signaalsequenties.

SignalP voorspelt alleen secretiesignalen en geen intracellulaire, eukaryote sorteersignalen. Aangezien signaalpeptiden voor secretie zich altijd aan de N-terminus bevinden, wordt door de makers geadviseerd om alleen de eerste 50-70 aminozuren van een eiwitsequentie in te voeren. In de praktijk vormen langere sequenties echter geen probleem.

Uitleg van de output en van hoe SignalP conclusies trekt.

Hieronder testen we SignalP met een aantal sequenties waarvan we het juiste antwoord in principe al kennen.

Signaalsequenties in een bacterie-eiwit en een humaan eiwit

Voer SignalP uit met:

De uit te voeren handelingen zijn:

  • Naar SignalP gaan
  • Sequentie kopiëren naar het zoekscherm
  • De juiste organismengroep selecteren!
  • Een sequentienaam invoeren in het ‘Sequence name’ vakje (zelf bedenken)
  • Op de knop ‘Submit’ klikken
  • Bekijk de outputs voor PrtP en de insuline precursor.
  • Stel de plaats van de voorspelde cleavage sites vast. Noteer. 
  • Bekijk voor het prokaryote eiwit ook of het signaalpeptide voldoet aan de eisen die worden gesteld aan een prokaryote signaalsequentie. Die eisen zijn: vanaf de N-terminus eerst een aantal positief geladen aminozuren, gevolgd door een aantal hydrofobe aminozuren; verder moeten de aminozuren op positie -1 en -3 ten opzichte van de knipplaats (= de plaats waar het signaalpeptide eraf wordt geknipt) klein en neutraal zijn. Dit zijn de zogenaamde Von Heijne regels voor goede signaalsequenties.

 N-terminal signal sequences of representative secreted prokaryotic proteins.

Protein   -20       -10       -1 +1
Leucine-binding protein  MKANAKTIIAGMIALAISHTAMA  EE...
Pre-alkaline phosphatase    MKQSTIALALLPLLFTPVTKA  RT...
Pre-lipoprotein     MKATKLVLGAVILGSTLLAG  CS...

In rood de hydrofobe aminozuren. Verder zie je een of meer basische aminozuren in de buurt van de N-terminus. Op positie -1 (dus vlak voor de klievingssite) zie je altijd een van de twee aminozuren met de kleinste zijketen en op positie -3 altijd een neutraal aminozuur met een (redelijk) kleine zijketen.


PSORT

Zoals je weet, kennen cellen diverse compartimenten. Eiwitten worden via sorteersignalen, die besloten liggen in hun sequentie, naar het juiste compartiment getransporteerd. Deze singalen zijn dus een soort postcodes voor de cel. Dit noemen we ook wel eiwitsortering (net als in het postkantoor post wordt gesorteerd naar postcode) of eiwitadressering (Engels protein targeting).  Bij SignalP hebben we al signaalpeptiden voor extracellulaire eiwitten gezien, maar er zijn nog meer sorteersignalen, met name in eukaryote cellen met al hun organellen.

PSORT is oorsrponkelijk ontwikkeld door K. Nakai van het Human Genome Center van de universiteit van Tokyo. Het voorspelt waar een eiwit in een cel terecht komt op basis van de sequentie van dat eiwit. Het programma ‘kent’ allerlei regels rond bekende sorteersignalen en past deze een voor een toe op de ingevoerde sequentie. Hiervoor zorgen diverse subprogramma’s, die - net als bij SignalP – ‘getraind’ worden met sequenties van eiwitten met bekende locaties en sorteersignalen. Het resultaat hiervan is een voorspelling van de uiteindelijke locatie van het betreffende eiwit in de cel met nog wat extra informatie (bijvoorbeeld over waar een eventueel sorteersignaal wordt afgesplitst).

PSORT kent verschillende versies; de gebruiker moet de versie kiezen die het beste past bij het organisme waaruit het te onderzoeken eiwit afkomstig is; soms kan daarbij uit verschillende versies worden gekozen.

PSORT ‘bekijkt’ de ingevoerde sequentie op allerlei manieren. Als we bijvoorbeeld aangeven dat het om een plantensequentie gaat, bekijkt PSORT de sequentie o.a. op de aanwezigheid van mitochondriële targetingsequenties en analyseert het het ‘hydrofobe moment’ van het eiwit om te kunnen voorspellen of het om een chloroplast-eiwit gaat. De uitkomsten van al deze voorspellingen wordt gecombineerd tot een ‘eindoordeel’ over de waarschijnlijke locatie van het eiwit.

Laten we PSORT eens testen met een aantal bekende sequenties waarvan de locatie van het betreffende eiwit bekend is.

Voorspelling van de subcellulaire locatie van een bacterie-eiwit, een planten-eiwit en een humaan eiwit

De voorspellingen:

Voer PSORT uit met:

De uit te voeren handelingen zijn:

  • Ga naar de PSORT startpagina
  • Kies het programma dat het beste bij het organisme van de te analyseren sequentie past en klik door naar het invoerscherm van het betreffende programma
  • Selecteer de juiste organismengroep
  • Kopieer en plak de sequentie van het te analyseren eiwit in in het invoervak
  • Voer een sequentienaam in in het ‘sequence ID’ vakje (geen database ID gebruiken!)
  • Op de knop ‘Submit ’ klikken

In de output krijg je een overzicht van de uitgevoerde voorspellingen (met links naar de achtergrond hiervan) en het ‘eindoordeel’. Door ‘rond te klikken’ in de outputs van deze opdracht krijg je een goed beeld van hoe PSORT voorspellingen doet voor eiwitsequenties.

  • Bekijk de outputs voor PrtP, U1A en Stel de locatie van alle eiwitten volgens PSORT vast en de plaats van eventuele cleavage sites.

Effe checke...:

  • Zoek via het zoekscherm bovenin de ExPASy startpagina de informatie over de cellulaire locatie van de in stap 1 geanalyseerde eiwitten en de bij de sortering van deze eiwitten gebruikte signalen op en vergelijk deze met de voorspellingen. 
  • Voor het snel vinden van de betreffende entries hier de codes voor deze eiwitten: PrtP: P15293; U1A: Q39244; insuline-precursor: P01308
  • Wat zijn je conclusies? 
 

De ultieme totaalvoorspelling?

Op de site van het Deense CBS vinden we de tool ProtFun. Het laatste deel van de naam slaat niet op plezier, maar op function, hoewel je van deze tool veel plezier kunt hebben. Laat deze ultieme totaalvoorspeller maar eens los op enkele sequenties die we hierboven hebben gebruikt en op de aminozuursequentie van jullie project-enzym. Het gebruik van deze tool wijst zich redelijk vanzelf.