STUDIETAAK 2  MULTIPLE SEQUENCE ALIGNMENT

Als we binnen eiwitten op zoek gaan naar gebieden die betrokken zijn bij bepaalde functies dan doen we dat vaak door naar zogenaamde geconserveerde gebieden te zoeken. Stel we zijn op zoek naar de ATP-bindingsplaats van eiwit X. Dan zetten we alle bekende sequenties van eiwitten met een ATP-bindingsplaats onder elkaar en bekijken we welk stukje van de aminozuurvolgorden van al die eiwitten steeds hetzelfde is. Zo'n gebied noemen we dan geconserveerd. Dit geconserveerde gebied correspondeert dan zeer waarschijnlijk met de ATP-bindingsplaats van al deze eiwitten. Dat moet dan nog wel proefondervindelijk worden vastgesteld (bijvoorbeeld door te bekijken of een eiwit met een mutatie in dit gebied nog steeds ATP kan binden). Je begrijpt dat de betrouwbaarheid van dit soort voorspellingen toeneemt naarmate je meer eiwitsequenties met elkaar kunt vergelijken of ‘align-en’.

In de loop van onderdeel 3.1 heb je al heel wat alignments gezien: elke keer als je via BLAST sequenties zoekt m.b.v. zoeksequentie krijg je alignments te zien tussen de zoeksequentie en de gevonden sequenties. Voor het zoeken naar geconserveerde gebieden in eiwitsequenties - zoals hierboven beschreven - moet je meer dan twee sequenties alignen. We noemen dit multiple sequence alignment (MSA). Naast deze toepassing zijn er nog allerlei andere toepassingen van MSA van zowel DNA- als eiwitsequenties. Sommige daarvan komen later in deze module aan de orde en weer andere in derdejaars modules. Ik ga hier niet in detail in op de werking van MSA. Wat ik alleen doe is kijken naar de rol van MSA bij het identificeren van geconserveerde gebieden in eiwitten en naar het meest gebruikte MSA-programma: ClustalW.  

2.1 MSA en geconserveerde gebieden

Als een MSA gemaakt wordt van een groep eiwitten met dezelfde functie en een aantal aminozuren komt in alle sequenties steeds op dezelfde positie voor, dan noemen we die aminozuren sterk geconserveerd (zie ook studietaak 1). Sterk geconserveerde aminozuren zijn essentieel voor de structuur en/of functie van het betreffende eiwit. De aard en positie van die aminozuren kan interessante informatie opleveren. Bevestiging van de functie van bepaalde aminozuren kan worden verkregen uit gerichte mutagenese-experimenten in het laboratorium. Ook stretches van meerdere aminozuren (= gebieden) kunnen geconserveerd zijn. Dit noemen we domeinen. Via MSA kun je geconserveerde aminozuren en domeinen in een eiwit op het spoor komen.

2.2 Consensus-sequenties

Een MSA is in feite een 2-dimensionale tabel, waarin de rijen individuele sequenties vertegenwoordigen en de kolommen de posities van de residuen (bij eiwitten de aminozuren). In een optimale MSA liggen zoveel mogelijk aminozuren die in de diverse sequenties overeenkomen (identiek of vergelijkbaar) in dezelfde kolom. De verschillende sequenties in een MSA (dus de rijen van de tabel) kunnen worden 'samengevat' in een 'pseudo-sequentie', die de overeenkomsten tussen de diverse sequenties waaruit de MSA bestaat weergeeft. Er zijn programma'sdie zo'n consensus-sequentie uit een MSA kunnen afleiden (deze gebruiken we hier nog niet; komt nog in derde jaar voor research-studenten), maar bij eenvoudige MSA's kun je dat ook zelf doen. Hieronder een voorbeeld:

Voorbeeld: Van MSA naar consensus-sequentie:

Vijf stukjes aminozuurvolgorde (van eiwitten I t/m V) zijn hieronder vergeleken in een MSA. De onderste regel is de consensus-sequentie die uit deze MSA kon worden afgeleid. Hiervoor zijn de volgende regels gebruikt:
- Als op een bepaalde positie in de MSA (is in een bepaalde kolom) bij alle sequenties (dus in alle rijen) dezelfde letter (= aminozuur) staat, komt die letter als hoofdletter in de consensus-sequentie te staan.
- Als op een bepaalde positie in de MSA bij een meerderheid van de sequenties dezelfde letter staat, komt die letter als kleine letter in de consensus-sequentie te staan.
- Als op een bepaalde positie in de MSA een letter even vaak voorkomt als een andere letter, komen beide letters in de consensus-sequentie te staan.
- Als er geen 'meerderheid' is voor een bepaalde letter, komt op die positie in de consensus-sequentie een X te staan.
Als je wilt oefenen in het zelf maken van een consensus-sequentie (moet je doen in opdracht 3), dan print je deze pagina uit, dek je de consensusregel af en leid je zelf m.b.v. bovenstaande regels de consensus-sequentie af. Daarna kun je kijken of je het goed gedaan hebt.

  1 2 3 4 5 6 7 8 9 10
I Y D G G A V - E A L
II Y D G G - - - E A L
III F E G G I L V E A L
IV F D - G I L V Q A V
V Y E G G A V V Q A L
consensus y d G G (A,I) (V,L) V e A l

Er bestaan verschillende methodes om een consensus-sequentie af te leiden uit een MSA en ook om deze weer te geven. De bovenstaande methode is daarvan een voorbeeld. Maar wat is nu eigenlijk het nut van het afleiden van een consensus-sequentie uit een MSA? Als we maar genoeg eiwitten in een MSA hebben opgenomen (in bovenstaand voorbeeld zijn dat er in feite te weinig), dan kunnen we zeggen dat de bijbehorende consensus-sequentie een soort 'handtekening' is van die familie van eiwitten of van een bepaald domein binnen die eiwitten. Als we dan in een nieuw eiwit een aminozuurvolgorde tegenkomen die voldoet aan die consensus-sequentie, dan kunnen we voorspellen dat het nieuwe eiwit tot de bij die consensus-sequentie behorende familie van eiwitten behoort c.q. dat het het domein bevat dat bij die consensus-sequentie hoort.

Dezelfde procedure kan worden gevolgd als we naar 'signalen' in DNA-sequenties zoeken. Zo heb je bijvoorbeeld bij de module Moleculaire biologie geleerd dat er een consensus-sequentie zijn opgesteld voor promotors, zoals die van Escherichia coli:

2.3 ClustalW

Het meest gebruikte MSA-programma is ClustalW. ClustalW wordt op een groot aantal websites on-line aangeboden. Op elke site heeft men zelf een gebruikersintgerface gemaakt. De sites die ClustalW aanbieden verschillen echter niet alleen van elkaar in lay-out van de interface, maar ook in de door de gebruiker in te stellen parameters (zoals gap penalties en scoringsmatrices). Dat betekent dat ook de uitleg in de helpfunctie kan verschillen van site tot site. Ook in de hieronder volgende uitleg speelt steeds mee dat ClustalW op elke site net weer anders werkt wat betreft de in te stellen parameters en de standaardparameters.

A. De input en output van ClustalW

ClustalW accepteert diverse input file formats. Welke dat zijn, kan per ClustalW-site verschillen (zie aldaar). De meest voor de hand liggende input file format is het Fasta format; we zullen dit format gebruiken in de oefeningen en opdrachten. Ook de output kan in diverse formats worden geleverd. De standaard format voor de output file is het Clustal format (.aln). Welke mogelijke output file formats mogelijk zijn, verschilt per site. De gebruiker kiest een format dat past bij wat zij/hij met de output gaat doen.

Als we een door ClustalW gemaakte MSA van eiwitsequenties bekijken, dan zien we een aantal tekens onder de alignment staan:

* identiek aminozuur in alle sequenties
: volledige conservering in alle sequenties van een van de volgende ‘sterke’ groepen (gebaseerd op de fysisch-chemische eigenschappen van de aminozuren):
STA / NEQK / NHQK / NDEQ / QHRK /  MILV / MILF / HY / FYW
. volledige conservering in alle sequenties van een van de volgende ‘zwakkere’ groepen:
CSA / ATV / SAG / STNK / STPA / SGND / SNDEQHK / NEQHRK / FVLIH / FYM

B. De werking van ClustalW

Het direct berekenen van optimale alignments van meer dan twee sequenties is een te grote klus voor een computerprogramma. Het aantal te onderzoeken mogelijkheden zou bijna oneindig zijn. De praktische aanpak waarvoor gekozen is bij programma’s zoals ClustalW is dat het programma de beste alignment inschat m.b.v. een progressive pairwise approach oftewel een voortschrijdende paarsgewijze benadering. De totale procedure die het programma doorloopt kent drie fases.

In de eerste fase alignt ClustalW alle sequenties twee aan twee (= paarsgewijs). Het geeft daarbij aan elk paar een ‘gelijkenis-score’ (similarity score). Om de gelijkenis tussen twee eiwitsequenties te scoren, heeft het programma – net als paarsgewijze alignmentprogramma’s zoals BLAST – een matrix nodig, die scores toekent aan de gelijkenis tussen twee aminozuren. Meer hierover volgt straks. Ook voor het vergelijken van DNA-sequenties wordt een bepaalde matrix gebruikt. Ook hierover volgt straks meer.

Deze scores worden vervolgens gebruikt om een zogenaamde afstandsmatrix op te stellen. Deze drukt voor elke combinatie van twee sequenties uit in een getal hoeveel deze sequenties op elkaar lijken. Het gaat te ver om deze hier uitgebreid te bespreken. In feite voert het programma dus een groot aantal paarsgewijze alignments uit en geeft het scores aan al die alignments. Stel je vergelijkt in totaal vier sequenties. Het programma vergelijkt dan in deze fase sequentie 1 met 2, 1 met 3, 1 met 4, 2 met 3, 2 met 4, 3 met 4. Bij de meeste ClustalW-sites kan de gebruiker kiezen of deze eerste fase langzaam en degelijk of snel en grof moet plaatsvinden.

In de tweede fase construeert het programma een dendrogram op basis van de afstandsmatrix uit de eerste fase: de guide tree. Het doet dit m.b.v. een van de methodes die zijn ontwikkeld om fylogenetische bomen te construeren: de neighbor-joining (NJ) methode. In de guide tree zijn de sequenties gegroepeerd op basis van hun gelijkenis. Deze guide tree wordt opgeslagen in een file en kan bij verschillende ClustalW-sites ook na afloop van de MSA worden bekeken.

In de derde fase worden met de guide tree als leidraad alle sequenties voortschrijdend ge-aligned.

C. De scoringsmatrices van ClustalW

ClustalW kent ook scoringsmatrices voor DNA-sequenties, maar ik beperk de uitleg hier tot de scoringsmatrices voor eiwitsequenties. Met scoringsmatrices voor eiwitsequenties, zoals de BLOSUM- en de PAM-matrices, hebben we al kennis gemaakt bij BLAST. Een derde groep van matrices zijn de GONNET-matrices. Deze zijn op vrijwel dezelfde manier afgeleid als de PAM-matrices, maar ze zijn meer up to date en gebaseerd op een grotere dataset. Ze schijnen gevoeliger te zijn dan de PAM-matrices. Bij een aantal ClustalW-sites kan de gebruiker instellen welke set van matrices het programma gebruikt. Het programma gebruikt dan de hele set (bij BLOSUM bijvoorbeeld BLOSUM80, 62, 40 en 30). Verschillende matrices kunnen verschillende uitkomsten opleveren. Welke matrix het beste is, hangt af van de gelijkenis tussen de te alignen sequenties. Als beginners houden wij het in de opdrachten en oefeningen bij de standaard matrixset van de gebruikte ClustalW-versies.

D. Gaps

Gaps en gap scores bij alignments zijn al aan de orde geweest bij BLAST. Op diverseClustalW-sites kan de gebruiker zelf de gap insertion penalty en de gap extension penalty instellen. In deze module gaan we hier niet mee aan de slag; we laten dit over aan de gevorderde MSA-makers. De extension penalty is gewoonlijk veel lager dan de insertion penalty. Dit is in overeenstemming met de biologische realiteit: meerdere gaps staan voor meerdere mutaties, terwijl een afzonderlijke mutatie best tot een vrij grote gap kan leiden. ClustalW probeert dus het aantal gaps zo klein mogelijk te houden: liever één wat grotere gap dan meerdere kleine. Verder is het zo dat hydrofobe binnenkanten van eiwitsequenties niet zo snel gaps in de bijbehorende DNA-sequenties zullen ‘toelaten’ als de polaire loops aan de buitenkant van een eiwit. ClustalW houdt hier rekening mee bij het maken van een MSA van eiwitsequenties: de gap penalty in regio’s met hydrofobe aminozuren is hoger dan die in regio’s met hydrofiele aminozuren (bij sommige sites kan deze optie worden uitgeschakeld). Ten slotte maakt ClustalW ook nog verschil tussen gaps binnenin de sequenties en gaps aan de uiteinden. Gaps aan de uiteinden krijgen vrij hoge penalties, zodat ClustalW dit soort gaps zoveel mogelijk vermijdt. Gaps aan de uiteinden kunnen namelijk biologisch significant zijn, maar kunnen ook een artefact zijn dat veroorzaakt wordt door het feit dat bepaalde sequenties niet volledig zijn. Dit kenmerk van ClustalW kan wel betekenen dat het een gap aan het uiteinde niet introduceert, terwijl die wel op zijn plaats zou zijn. Het is aan de gebruiker om de uiteindelijke MSA te beoordelen en eventueel bij te stellen.

 

Studietaak 2, Opdracht 1: Multiple Sequence Alignment - theorie en praktijk

Uitwerken in groepjes
Deadline inleveren uitwerkingen:
IN OVERLEG!

A. De theoretische achtergrond van MSA en ClustalW

1. Schrijf de consensus op die volgt uit onderstaande MSA. Volg hierbij de regels uit paragraaf 2.1.

Beta: S E L H C D K L H V
Delta: S E L H C D K L H V
Gamma-A: S E L H C D K L H V
Gamma-G: S E L H C D K L H V
Epsilon: S E L H C D K L H V
Alpha-1: S D L H A H K L R V
Alpha-2: S D L H A H K L R V
Theta: S H L H A C Q L R V
Zeta: S E L H A Y I L R V
                     
Consensus:                    

PS: Dit zijn gedeeltes van de negen humane globine-sequenties.

2. 
a. Op welke posities zijn de aminozuren in de MSA van vraag 1 niet identiek in alle sequenties, maar behoren  ze wel tot dezelfde fysisch-chemische groep, zoals gedefinieerd in paragraaf 2.3A hierboven? Geef per positie waarin je aminozuren van dezelfde groep vindt aan tot welke groep ze dan behoren. 
b. Probeer ook te achterhalen (bijvoorbeeld via de site van de module Biochemie) voor elke groep die je bij a tegekomt waarom de aminozuren in die groep bij elkaar zijn gezet.

3. Als je naar de ClustalW-site van Wageningen Universiteit gaat, zul je zien dat de gebruiker daar de instellingen van de Pairwise alignment en van de Multiple alignment zelf kan aanpassen. Hier volgen enkele vragen hierover.
a. Waarom is er de mogelijkheid om de instellingen van Pairwise alignment in te stellen? ClustalW is toch bedoeld voor Multiple alignments?
b. Het belangrijkste verschil tussen Fast algorithm en Slow algorithm bij de Pairwise alignement is dat het langzame algoritme gebruik maakt van een matrix. Wat is de functie van die matrix? Kun je een voor- en een nadeel bedenken van het gebruiken van het snelle algoritme?

3. ClustalW verschilt van vorige Clustal-versies en van pairwise alignment programma's zoals BLAST doordat het invoeren van gaps in de alignment wat ingewikkelder gaat. Benoem de aspecten van het maken van gaps die door ClustalW worden gebruikt en die je nog niet kende van BLAST.

B. MSA voor het selecteren van PCR-primers

Een veel gebruikte toepassing van multiple sequence alignment is het selecteren van PCR-primers om meer van die groep van sequenties te kunnen vinden.

Een voorbeeld:

Bas doet onderzoek naar de diverse isovormen van fosfolipase D (PLD’s) van de tomaat (Lycopersicon esculentum). Hij heeft namelijk ontdekt dat activatie van sommige PLD’s onderdeel is van de signaaltransductie-routes van deze plant. Hij wil voor zijn onderzoek zoveel mogelijk cDNA’s behorend bij de diverse PLD-isovormen uit een cDNA-bank halen.

Zijn strategie is als volgt:

  • Hij heeft via Entrez één tomaten PLD-sequentie uit de databases gevist en vier Arabidopsis thaliana PLD-sequenties (A. thaliana is de modelplan).
  • Hij heeft een gebied in deze sequenties geïdentificeerd waarbinnen al deze PLD’s goed op elkaar lijken.
  • Hij wil nu deze gebieden m.b.v. ClustalW alignen, zodat hij stukjes van zes aminozuren kan aanwijzen die in alle sequenties identiek zijn. Hieruit wil hij vervolgens de sequenties van primers afleiden om m.b.v. PCR PLD-kloons uit een tomaten-cDNA-bank te vissen.

1. Welke twee stukjes van zes aminozuren zou jij gebruiken om primers op te baseren?

2. Hoe groot is het bijbehorende verwachte PCR-product (in bp)?

Je vindt het antwoord op deze vraag door Bas’ sequenties (zie hieronder) in te voeren in Clustal W en het resultaat te analyseren.

>tomaat
RILSFVGGIDLCDGRYDTPFHSLFRTLDTAHHDDFHQPNFADGSITKGGPREPWHDIHSRLEGPIAWDVL
FNFEQRWRKQGGKDILVNFRELDDVIIPPSPVMYPDDHETWNVQLFRSIDGGAAFGFPDTPEDAAKAGLV
SGKDNIIDRSIQDAYIHAIRRAKNFIYIENQYFLGSCADWQCDDVKVEDIGALHVIPKELALKIVSKIEA
GERFTVYVVVPMWPEGIPESASVQAILDWQRRTMEMMYKCIVQAMNAKGIEEDPRNYLTFFCIGNREVKK
>arabi1
RRKIVAFVGGLDLCNGRFDTPKHSLFGTLKTLHKDDFHNPNFVTTEDVGPREPWHDLHSKIDGPAAYDVL
ANFEERWMRLQNLRGIGEGRTSFDDSLLRINRIPDIMGLSEASSANDNDPESWHVQVFRSIDSTSVKGFP
KDPEEATGRNLLCGKNILIDMSIHAAYVKAIRSAQHFIYIENQYFLGSSFNWDSNKNLGANNLIPMEIAL
KIANKIRAREKFAAYIVIPMWPEGAPTSNPIQRILYWQHKTMQMMYQTIYKALVEVGLDGQLEPQDFLNF
>arabi2
RRKIVAFVGGLDLCNGRFDTPKHPLFRTLKTLHKDDFHNPNFVTTADDGPREPWHDLHSKIDGPAAYDVL
ANFEERWMKASKLAELGNENTSSDDSLLRIDRIPDIVGLSEASSANDNDPESWHVQVFRSIDSSSVKGFP
KDPKEATGRNLLCGKNILIDMSIHAAYVKAIRSAQHFIYIENQYFLGSSFNWDSNKDLGANNLIPMEIAL
KIANKIRAREKFAAYIVIPMWPEGAPTSNPIQRILYWQHKTIEMMYQTIYKALVEVGLDSQFEPQDFLNF
>arabi3
RIVSFVGGIDLCDGRYDYSVPLLVQDIGHSHHDDFHQPNFTGAAITKGGPREPWHDIHSRLEGPIAWDVM
YNFEQRWSKQGGKEILVKLRDLSDIIITPSPVMFQETTMCGMSNCLGPLMEELLLGFPSRLKLLRKPGLY
SGKDNIIDRSIQDAYIHAIRRAKDFIYVENQYFLGSSFAWAADGITPEDINALHLIPKELSLKIVSKIDQ
GEKFRVYVVVPMWPEGLPESGSVQAILDWQRRTMEMMYKDVIQALKGLEGPEDPRNYLTFFCLGNREVKK
>arabi4
RRKIIAFVGGLDLCDGRYDTPQHPLFRTLQTIHIDDFHNPTFTGNLSGCPREPWHDLHSKIDGPAAYDVL
TNFEERWLKAAKPSGIKKFKLPIDDALLRIDRIPDILGVSDTPTVSENDPEAWHVQIFRSIDSNSVKGFP
KDPKDATCKNLVCGKNVLIDMSIHTAYVKAIRAAQHFIYIENQYFIGSSYNWNAHKDIGADNLIPMEIAL
KIAEKIRANERFAAYIVIPMWPEGVPTGAATQRILYWQHKTIQMMYETIYKALVETGLEGAFSPQDYLNF

C. Vogelpestvirus in de Gelderse Vallei? - vervolg

In studietaak 0 hebben we ons al eens bezig gehouden met het NS eiwit van stam H5N1 van het vogelpestvirus (zie opgave 5 op deze pagina). We hebben toen gevonden dat één aminozuurverandering in dit eiwit ten opzichte van ditzelfde eiwit in andere stammen van het virus ervoor zorgt dat stam H5N1 mensen kan infecteren (zie hier).

Voer een MSA uit met de sequenties van het NS-eiwit van verschillende typen van het vogelpestvirus (zie hieronder) en beantwoord de volgende vragen: 

1. Klopt het dat op positie 92 inderdaad altijd een aspartaat (D) of een glutamaat (E) aanwezig is in de NS eiwitten van alle onderzochte stammen? Plak de gevonden MSA (alleen de alignment zelf, niet alle informatie erom heen) in in Word en geef het betreffende aminozuur met een kleurtje aan in alle sequenties. Let op: Zet voor een mooie MSA het lettertype van je Word-document op Courier New!

2. Om welke stam moeten we ons volgens deze MSA nog meer zorgen maken behalve om stam H5N1? Waarom?

3. Het langste stuk van het NS1 eiwit waarin in alle typen alle aminozuren identiek zijn, is acht aminozuren lang. Dit is dus blijkbaar een belangrijk gebied. Zoek dit gebied op (tip: posities waarop de aminozuren in alle sequenties met elkaar overeenkomen, worden in de MSA weergegeven met een sterretje). Geef dit gebied in je Word-document in alle sequenties een kleurtje (anders dan de bij vraag 1 gebruikte kleur). Noteer de positienummers van begin en eind van dit gebied. Zoek vervolgens uit wat de mogelijke functie van dit gebied is via deze Swiss-Prot entry over het NS eiwit van stam H5N1 (kijk bij FEATURES; gebruik de positienummers die je net hebt genoteerd). 

>H7N7
NTVSSFQVDCFLWHIRKRFADQKMGDAPFLDRLRRDQKSLKGRSSTLGLDIESSTLAGRQIVKRILKEES
DSEPKGTITSVPTSYYLTDMTLEEMSRAWFMLIPNQKRVGSLCIRMDQAIMDKEITLKANFSVVFNKLET
LTLLRAFTDDEAIIGEILPIPSLPGHTNEDVKNAIEILIGGLEWNNNTVRISEILQRFTWRNSNENGGFL
LSPKQKQKMEGTTGPEV
>H9N2
MDSNTVSSFQVDCFLWHVRKRFADQELGDAPFLDRLRRDQKSLRGRGSTLGLDIRTATREGKHIVERILE
EESDEALKMTIASVPASRYLTEMTLEEMSRDWLMLIPKQKVTGPLCIRMDQAVMGKTIILKANFSVIFNR
LEALILLRAFTDEGAIVGEISPLPSLPGHTDEDVKNAIGVLIGGLEWNDNTVRVSETLQRFTWRSSDENG
RSPLPPKQKRKVERTIEPEV
>H7N3
MDSNTVSSFQVDCFLWHVRKRFADQELGDAPFLDRLRRDQKSLRGRGSTLGLDIETATRAGKQIVERILE
EESDEALKMTIASVPASRYLTDMTLEEMSRDWFMLMPKQKVAGSLCIRMDQAIMDKNIILKANFSVIFDR
LETLILLRAFTEEGAIVGEISPLPSLPGHTDEDVKNAIGVLIGGFEWNDNTVRVSETLQRFAWRSSNEDG
RPPLPPKQKRKMARAIESEV
>H5N8
MDSNTITSFQVDCYLWHIRKLLSMRDMCDAPFDDRLRRDQKALKGRGSTLGLDLRVATMEGKKIVENILK
SETDEHLRIAIASSPAPRYITDMSIEEISREWYMLMPRQKITGGLMVKMDQAIMDKRIILKANFSVLFDQ
LETLVSLRAFTDSGAIVAEISPIPSMPGHSAEDVKNAIGILIGGLEWNDNSIRASENIQRFAWGVRDENG
GPPLPPKQERYMARRVESEV
>H5N3
MDSNTPTSFQVDCYLWHIRKLLSMRDMCDAPFDDRLRRDQKALKGRGNTLGLDLRAATMEGKRVVEDILK
SETNENLKIAIASSPVPHYITDMSIEEISREWYMLMPRQKITGGLMVKMDQAIMDRRIILKANFSVLFDQ
LETLVSLRAFTDDGAIVAEISPIPSMPGHTTEDVKNAIGILIDGLEWNDNSIRASENIQRFAWGIHDENG
GPPLPPKQKRYMARRVESEV
>H5N2
MDSNTVSSFQVDCFLWHVRKRFADQELGDAPFLDRLRRDQKSLRGRGSTLGLDIETATRAGKQIVERILE
EESDEALKMTIASVPASRYLTDMTLEEMSRDWFMLMPKQKVAGSLCIRMDQAIMDKNIILKANFSVIFDR
LETLILLRAFTEEGAIVGEISPLPSLPGHTDEDVKNAIGVLIGGLEWNDNTVRVSETLQRFAWRSSNEDG
RPLLPPKQKRKMARTIESEV
>H5N1
MDSNTVSSFQVDCFLWHVRKRFADQELGDAPFLDRLRRDQKSLRGRGSTLGLDIRAATREGKHIVERILE
EESDEALKMTIASVPAPRYLAEMTLEEMSRDWLMLIPKQKVTGSLCIRMDQAIMDKDIILKANFSVIFNR
LEALILLRAFTDEGAIVGEISPLPSLPGHSEEDVKNAIGVLIGGLEWNNNTVRVSETLQRFTWRSSDENG
RSLLPPKQKRKMERTIEPEV

D. Van CFTR naar MSA  

In het CFTR-eiwit is een aantal domeinen aan te wijzen die een rol spelen bij het correct functioneren ervan (als Cl-ionenkanaal). Twee belangrijke domeinen zijn Nucleotide Binding Domain 1 (NBD1) en Nucleotide Binding Domain 2 (NBD2). Veel mutaties die tot taaislijmziekte (CF) leiden, blijken in deze twee domeinen te liggen. Uit studies aan mutante versies blijkt dat NBD1 en NBD2 onder andere van belang zijn voor de correcte insertie van CFTR in de membraan. Maar hun belangrijkste functie is aan hun naam af te lezen: de binding van ATP (zie Figuur 1).

Figure 1
Domain organization of CFTR. The five domains of CFTR are shown. Also indicated is a putative nucleotide-binding domain association in which the ATP-binding site of one NBD is opposed by the signature sequence of the other NBD. Inactivity at the NBD1 ATP-binding site is indicated by Ser residues in place of the catalytic Glu and His in addition to His residues substituted for the Gln and central Gly in the NBD2 signature sequence (bron: http://www.nature.com/emboj/journal/v23/n2/fig_tab/7600040f1.html)

CFTR blijkt qua verwantschap op sequentieniveau te behoren tot de groep der ABC-eiwitten – de grootste eiwitfamilie die er bestaat, met vertegenwoordigers in alle organismen. Veel ABC-eiwitten zijn pomp-eiwitten (ABC-transporters), die in het algemeen zorgen voor het naar buiten of naar binnen pompen van verbindingen tegen een concentratiegradiënt in. Dit betekent dat ABC-transporters energie nodig hebben om hun werk te kunnen doen. Ze bevatten dan ook een of twee ATP-bindingsplaatsen en ABC staat in hun naam voor ATP-Binding Cassette. Bij de defosforylering van het gebonden ATP komt er energie vrij die zorgt voor een conformatieverandering van de ATP-transporter, die vervolgens een bepaalde verbinding naar buiten c.q. binnen pompt. De multidrug resistance eiwitten die ervoor zorgen dat tumorcellen anti-tumor-medicijnen weer naar buiten pompen en dat bacteriën de tegen hen gerichte antibiotica weer naar buiten pompen zijn voorbeelden van ABC-transporters.

Het vreemde van het feit dat CFTR tot deze eiwitfamilie behoort, is dat het geen pomp-eiwit, maar een ionkanaal-eiwit is. Kanaal- of tunnel-eiwitten zorgen voor zogenaamde vereenvoudigde diffusie van een stof de cel in of uit, dus met een concentratiegradiënt mee; dit betekent dat ze geen energie nodig hebben. Op dit moment is de hypothese dat CFTR is geëvolueerd vanuit een ABC-transporter (met pompwerking, dus met ATP-behoefte) en dat ATP-binding aan de NBD’s nu het openen en sluiten van CFTR reguleert (als eindpunt van een strak gereguleerd signaaltransductiemechanisme).

Binnen de NBD’s wordt de ATP-binding verzorgd door een motief van acht aminozuren: het zogenaamde Walker A motief – een consensus-sequentie die in alle ABC-eiwitten, maar ook in andere nucleotide-bindende eiwitten wordt teruggevonden. De consensus-sequentie van het Walker A motief ziet er als volgt uit: GXXGXGK(S,T). ABC-transporters hebben allemaal een Walker A motief op eenzelfde, geconserveerde positie. Een bepaalde groep ABC-transporters heeft daarnaast een tweede Walker A motief (corresponderend met een tweede NBD) dat op verschillende posities kan voorkomen. In humaan CFTR vinden we bijvoorbeeld twee Walker A motieven, namelijk op de posities 458-465 (GSTGAGKT) en 1244-1251 (GRTGSGKS). Zoals je ziet, voldoen deze beide aan de consensus-sequentie.

MQRSPLEKASVVSKLFFSWTRPILRKGYRQRLELSDIYQIPSVDSADNLSEKLEREWDRE
LASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLLGRIIASYDPDNKEERSIA
IYLGIGLCLLFIVRTLLLHPAIFGLHHIGMQMRIAMFSLIYKKTLKLSSRVLDKISIGQL
VSLLSNNLNKFDEGLALAHFVWIAPLQVALLMGLIWELLQASAFCGLGFLIVLALFQAGL
GRMMMKYRDQRAGKISERLVITSEMIENIQSVKAYCWEEAMEKMIENLRQTELKLTRKAA
YVRYFNSSAFFFSGFFVVFLSVLPYALIKGIILRKIFTTISFCIVLRMAVTRQFPWAVQT
WYDSLGAINKIQDFLQKQEYKTLEYNLTTTEVVMENVTAFWEEGFGELFEKAKQNNNNRK
TSNGDDSLFFSNFSLLGTPVLKDINFKIERGQLLAVAGSTGAGKTSLLMVIMGELEPSEG
KIKHSGRISFCSQFSWIMPGTIKENIIFGVSYDEYRYRSVIKACQLEEDISKFAEKDNIV
LGEGGITLSGGQRARISLARAVYKDADLYLLDSPFGYLDVLTEKEIFESCVCKLMANKTR
ILVTSKMEHLKKADKILILHEGSSYFYGTFSELQNLQPDFSSKLMGCDSFDQFSAERRNS
ILTETLHRFSLEGDAPVSWTETKKQSFKQTGEFGEKRKNSILNPINSIRKFSIVQKTPLQ
MNGIEEDSDEPLERRLSLVPDSEQGEAILPRISVISTGPTLQARRRQSVLNLMTHSVNQG
QNIHRKTTASTRKVSLAPQANLTELDIYSRRLSQETGLEISEEINEEDLKECFFDDMESI
PAVTTWNTYLRYITVHKSLIFVLIWCLVIFLAEVAASLVVLWLLGNTPLQDKGNSTHSRN
NSYAVIITSTSSYYVFYIYVGVADTLLAMGFFRGLPLVHTLITVSKILHHKMLHSVLQAP
MSTLNTLKAGGILNRFSKDIAILDDLLPLTIFDFIQLLLIVIGAIAVVAVLQPYIFVATV
PVIVAFIMLRAYFLQTSQQLKQLESEGRSPIFTHLVTSLKGLWTLRAFGRQPYFETLFHK
ALNLHTANWFLYLSTLRWFQMRIEMIFVIFFIAVTFISILTTGEGEGRVGIILTLAMNIM
STLQWAVNSSIDVDSLMRSVSRVFKFIDMPTEGKPTKSTKPYKNGQLSKVMIIENSHVKK
DDIWPSGGQMTVKDLTAKYTEGGNAILENISFSISPGQRVGLLGRTGSGKSTLLSAFLRL
LNTEGEIQIDGVSWDSITLQQWRKAFGVIPQKVFIFSGTFRKNLDPYEQWSDQEIWKVAD
EVGLRSVIEQFPGKLDFVLVDGGCVLSHGHKQLMCLARSVLSKAKILLLDEPSAHLDPVT
YQIIRRTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSLFRQA
ISPSDRVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL

Hieronder vind je de sequenties van een aantal ABC-transporters uit diverse organismen. Deze ga je alignen m.b.v. ClustalW en je gaat vervolgens op zoek naar Walker A motieven die wijzen op de aanwezigheid van NBD's.

>P13569
MQRSPLEKASVVSKLFFSWTRPILRKGYRQRLELSDIYQIPSVDSADNLSEKLEREWDRE
LASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLLGRIIASYDPDNKEERSIA
IYLGIGLCLLFIVRTLLLHPAIFGLHHIGMQMRIAMFSLIYKKTLKLSSRVLDKISIGQL
VSLLSNNLNKFDEGLALAHFVWIAPLQVALLMGLIWELLQASAFCGLGFLIVLALFQAGL
GRMMMKYRDQRAGKISERLVITSEMIENIQSVKAYCWEEAMEKMIENLRQTELKLTRKAA
YVRYFNSSAFFFSGFFVVFLSVLPYALIKGIILRKIFTTISFCIVLRMAVTRQFPWAVQT
WYDSLGAINKIQDFLQKQEYKTLEYNLTTTEVVMENVTAFWEEGFGELFEKAKQNNNNRK
TSNGDDSLFFSNFSLLGTPVLKDINFKIERGQLLAVAGSTGAGKTSLLMVIMGELEPSEG
KIKHSGRISFCSQFSWIMPGTIKENIIFGVSYDEYRYRSVIKACQLEEDISKFAEKDNIV
LGEGGITLSGGQRARISLARAVYKDADLYLLDSPFGYLDVLTEKEIFESCVCKLMANKTR
ILVTSKMEHLKKADKILILHEGSSYFYGTFSELQNLQPDFSSKLMGCDSFDQFSAERRNS
ILTETLHRFSLEGDAPVSWTETKKQSFKQTGEFGEKRKNSILNPINSIRKFSIVQKTPLQ
MNGIEEDSDEPLERRLSLVPDSEQGEAILPRISVISTGPTLQARRRQSVLNLMTHSVNQG
QNIHRKTTASTRKVSLAPQANLTELDIYSRRLSQETGLEISEEINEEDLKECFFDDMESI
PAVTTWNTYLRYITVHKSLIFVLIWCLVIFLAEVAASLVVLWLLGNTPLQDKGNSTHSRN
NSYAVIITSTSSYYVFYIYVGVADTLLAMGFFRGLPLVHTLITVSKILHHKMLHSVLQAP
MSTLNTLKAGGILNRFSKDIAILDDLLPLTIFDFIQLLLIVIGAIAVVAVLQPYIFVATV
PVIVAFIMLRAYFLQTSQQLKQLESEGRSPIFTHLVTSLKGLWTLRAFGRQPYFETLFHK
ALNLHTANWFLYLSTLRWFQMRIEMIFVIFFIAVTFISILTTGEGEGRVGIILTLAMNIM
STLQWAVNSSIDVDSLMRSVSRVFKFIDMPTEGKPTKSTKPYKNGQLSKVMIIENSHVKK
DDIWPSGGQMTVKDLTAKYTEGGNAILENISFSISPGQRVGLLGRTGSGKSTLLSAFLRL
LNTEGEIQIDGVSWDSITLQQWRKAFGVIPQKVFIFSGTFRKNLDPYEQWSDQEIWKVAD
EVGLRSVIEQFPGKLDFVLVDGGCVLSHGHKQLMCLARSVLSKAKILLLDEPSAHLDPVT
YQIIRRTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSLFRQA 
ISPSDRVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL
>Q92337  
MKMFQSFFSNYIDINFFRNATLDQCLLLFYLSLFSLTNLFLIQKLFHANHTQHPLKKYFG
ETCLLEYIQIILSIVSAALSFYLDTNAVWWAIRTITHLEIVGLNILSSLKYGSTLFSWIS
VANAFGLLLLRLISIYDFLTYSSWSFSVKGGSFLLLLPLAYNITLFLLVIIPLFFPRAWS
PTVKFSKVARPSPEQTCSIFSLIFTYGWLNGIIWKSWKKPITLTDVPALPDTECTQIWYS
RFAKNDRKSLMHTILLSLKSTILLMVFLSVLVSSTLFVTPLAIKKLLQYLQNPKSDEGNS
PFLWVFVLLIGPYLASVVKELYVHVSRRFMLRIKAAITQMIYKKVLTSKTLFVAVDGSKI
NLDYVYNLLAKDVDNIGEMREFIGIIARAPLEMGVSMYFLYQLLGWSAYVGLLLAILSSS
FPLLVASKISRLTSIANTSSDERIRLTTELLKSIKITKLFGWERPMLSRIQEKRSFEVNN
MYSLTLFDIIFKSGMKIAPFISMFITFAIYTKIMGHQLTPATAFTSISMFGLLRYQFIWL
ASVSRQFIQFKVSLKRVDNFVYGNMVNDSSIESSDSFVFENTSLSWSPTPSTALFQLKNL
NFTIPRNQFTLVVGSTGSGKSTLAMALLGELHVISGKMTTPSISQRIAYVPQAAWLRNGT
IRSNILFGEPYDEERYFQIIKACCLDSDLNSMNDGDLTYIHSNGSSLSGGQKQRVSLARA
LYSNAEVYIFDDIFSALDVSTSRKIYESCFLSTLLQHKTIILFTHNVSLCLPIAENVIVL
KNSTAQLVSPDSIQELVPSTFFSSNTKKDNIEEENLEPHSFSFDSTLASSSDNDEQRDFA
SNSSIVLLGLHYLKYFGSNKYILGSILLVMMSQVSLASIHFWIALWSGNSLFSLKLPSSF
SFLWGYAILLFIYFLMDLSRAITFAKGGRTASENIHDILSERVLYSPLHWFEKTAAGRIL
NRFSKDMYATDNLLWASLEGMLLCVMAILITMLNVTLVMPIFMVPAAFVSLLVYLHGYAY
SKAQKQLTSLQSSRTSPVFTMLGETLGGITVIRAFKKEKIFEHENMAFIDDMIQPLYISF
AINRWLAIRTDGISGLVGFSTGLIALLRQNIPPGLVGFSLNSAIGFNISVLVFVRANNEI
LTYINNFRRLYEYMLLPSEKNESSCLTKPMNKEWPTLGHVSIKNLTVSYSIGQAAVLEDI
NLEILPKEKIAIVGRTGSGKSTMGLTLLRFTMIMSGAVEVDGIDINSLDLEVLRQRISLI
PQDPVLISGTVRSNLDPFEEYGDGELNEILKTASCESLVQASNKNSLDAFAIHLDTPVDS
GGVNFSSGQRQILALARALVRKSRIVILDESTASVDDTTDRRIQQMLRAAFKHATVLCIA 
HRIKTIVDYDKVLVLDSGKTVEFGSPKSLYTQRRAFWKMCKESHISL
>P44407  
MQEQKLQENDFSTLQTFKRLWPMIKPFKAGLIVSGVALVFNALADSGLIYLLKPLLDDGF
GKANHSFLKMMAFVVVGMIILRGITNFISNYCLAWVSGKVVMTMRRRLFKHLMFMPVSFF
DQNSTGRLLSRITYDSQMIASSSSGSLITIVREGAYIISLFAVMFYTSWELTIVLFIIGP
IIAVLIRLVSKIFRRLSKNLQDSMGELTSATEQMLKGHKVVLSFGGQHVEEVHFNHVSND
MRRKSMKMVTANSISDPVVQVIASLALATVLYLATTPLIAEDNLSAGSFTVVFSSMLAMM
RPLKSLTAVNAQFQSGMAACQTLFAILDLEPEKDDGAYKAEPAKGELEFKNVSFAYQGKD
ELALNNISFSVPAGKTVALVGRSGSGKSTIANLVTRFYDIEQGEILLDGVNIQDYRLSNL 
RENCAVVSQQVHLFNDTIANNIAYAAQDKYSREEIIAAAKAAYALEFIEKLPQVFDTVIG
ENGTSLSGGQRQRLAIARALLRNSPVLILDEATSALDTESERAIQSALEELKKDRTVVVI 
AHRLSTIENADEILVIDHGEIRERGNHKTLLEQNGAYKQLHSMQFTG
>Q65U21  
MQKLQENDLSTSQTFKRLWPTIAPFKIGLIAAAAALVLNALTDSGLIYLLKPLLDDGFGK
ADTSFLKLMAVLVIVFIFIRGITSFISSYCLAWVSGKVVMTMRRRLFKHLMYMPVSFFDQ
NSTGRLLSRITYDSEQVANSSSNALVTIVREGAYIISLLAVMIATSWQLSVVLFIIGPVI
AVLIRLVSKIFRRLSKNMQNSMGELTATAEQMLKGHKVVLSFGGQQIEEQRFNEVSNDMR
RKGMKMVVADAISDPIVQIIASLALSAVLYLATIPSIMSQNLSAGSFTVVFSSMLAMLRP
LKSLTNVNSQFQRGMAACQTLFDILDLDTEKDKGKYEAERVKGDVSFKDVSFTYQGKDQP
ALKHLSFDIPHGKTFALVGRSGSGKSTIANLVTRFYDINQGEILLDGVNVQDYTLSNLRT
HCSVVSQQVHLFNDTIANNIAYAAKDKYSREQIIAAAKAAHAMEFIEPLENGLDTVIGEN
GASLSGGQRQRLAIARALLRDSPVLILDEATSALDTESERAIQAALEELQKDRTVLVIAH 
RLSTIEKADEILVIDHGEICERGSHEELLALNGAYKQLHKMQFNG
>O75027  
MALLAMHSWRWAAAAAAFEKRRHSAILIRPLVSVSGSGPQWRPHQLGALGTARAYQIPES
LKSITWQRLGKGNSGQFLDAAKALQVWPLIEKRTCWHGHAGGGLHTDPKEGLKDVDTRKI
IKAMLSYVWPKDRPDLRARVAISLGFLGGAKAMNIVVPFMFKYAVDSLNQMSGNMLNLSD
APNTVATMATAVLIGYGVSRAGAAFFNEVRNAVFGKVAQNSIRRIAKNVFLHLHNLDLGF
HLSRQTGALSKAIDRGTRGISFVLSALVFNLLPIMFEVMLVSGVLYYKCGAQFALVTLGT
LGTYTAFTVAVTRWRTRFRIEMNKADNDAGNAAIDSLLNYETVKYFNNERYEAQRYDGFL
KTYETASLKSTSTLAMLNFGQSAIFSVGLTAIMVLASQGIVAGTLTVGDLVMVNGLLFQL
SLPLNFLGTVYRETRQALIDMNTLFTLLKVDTQIKDKVMASPLQITPQTATVAFDNVHFE
YIEGQKVLSGISFEVPAGKKVAIVGGSGSGKSTIVRLLFRFYEPQKGSIYLAGQNIQDVS
LESLRRAVGVVPQDAVLFHNTIYYNLLYGNISASPEEVYAVAKLAGLHDAILRMPHGYDT
QVGERGLKLSGGEKQRVAIARAILKDPPVILYDEATSSLDSITEETILGAMKDVVKHRTS
IFIAHRLSTVVDADEIIVLDQGKVAERGTHHGLLANPHSIYSEMWHTQSSRVQNHDNPKW 
EAKKENISKEEERKKLQEEIVNSVKGCGNCSC
>Q61102  
MALLAIHSWRWAAAAVAFEKHKHSAVLTRALVSMCGSGPRWSSSQRGASGSARLSQTTES
LRNTTQQRWGKDNSRQLLDATKALQTWPLIEKRTCWHGHAGGGLHTDPKEGLKDVDTRKI
IKAMLSYVWPEDRPDLRARVAISLGFLGGAKAMNIVVPFMFKYAVDSLNQMSGNMLNLSD
APNTVATMATAVLIGYGVSRAGAAFFNEVRNAVFGKVAQNSIRRIAKNVFLHLHNLDLGF
HLSRQTGALSKAIDRGTRGISFVLSALVFNLLPIVFEMMLVSSVLYYKCGAQFALVTLGT
LGAYTAFTVAVTRWRTRFRIEMNKADNDAGNAAIDSLLNYETVKYFNNEKYEAQRYDGFL
KTYETASLKSTSTLAMLNFGQNAIFSVGLTAIMVLASQGIVAGALTVGDLVMVNGLLFQL
SLPLNFLGTVYRETRQALIDMNTLFTLLKVDTRIKDKVMAPPLQITPQTATVAFDNVHFE
YIEGQKVLNGVSFEVPAGKKVAIVGGSGSGKSTIVRLLFRFYEPQKGSIYLAGQNLQDVS
LESLRRAVGVVPQDAVLFHNTIYYNLLYGNINASPEEVYAVAKLAGLHDAILRMPHGYDT
QVGERGLKLSGGEKQRVAIARAILKNPPVILYDEATSSLDSITEETILGAMRDVVKHRTS
IFIAHRLSTVVDADEIIVLSQGKVAERGTHYGLLANSSSIYTEMWHTQSNRVQNQDSLGW 
DAKKESLSKEEERKKLQEEIVNSVKGCGNCSC
>P23596  
MNASSERDRSLFGVLRQFRRSFWSVGIFSAVINVLMLAPSVYMLQVYDRVLASGNGITLL
MLTLLMAGLCAFMGALEWVRSLLVVRLGTRIDLALNQDVFNAAFARNLEAGDGRAGLALT
DLTLLRQFITGNALFAFFDVPWFPLFLLVLFLLHPWLGMLALGGTVVPGGVGLAEPASDQ
STAGGSNQQSQQATHLADAQLRNADVIEAMGMLGNLRRRWLARHYRFISLQNLASERAAA
VGGASKYSRIALQSLMLGLGALLAIDGKITPGMMIAGSILVGRVLSPIDQLIGVWKQWSS
ARIAWQRLTRLIAAYPPRPAAMALPAPEGHLSVEQVSLRTAQGNTRLQNIHFSLQAGETL
VILGASGSGKSSLARLLVGAQSPTQGKVRLDGADLNQVDKNTFGPTIGYLPQDVQLFKGS
LAENIARFGDADPEKVVAAAKLAGVHELILSLPNGYDTELGDGGGGLSGGQRQRIGLARA
MYGDPCLLILDEPNASLDSEGDQALMQAIVALQKRGATVVLITHRPALTTLAQKILILHE 
GQQQRMGLARDVLTELQQRSAANQARMNPTAAMPQ

  1. Copy-paste bovenstaande zeven sequenties naar ClustalW en maak een MSA.
  2. Kijk onderin de output naar de 'unrooted' tree. Welke twee sequenties lijken het meest op elkaar? Welke twee sequenties lijken ook goed op elkaar, maar minder goed dan het eerste duo? Noteer de codes.
  3. Copy-paste de MSA naar Word. Zet het lettertype voor de hele MSA op Courier 

We gaan deze MSA nu gebruiken om de Walker A motieven van alle eiwitten in de MSA te vinden.

  1. Zoek de Walker A motieven (= ATP-bindingsplaatsen) op van NBD1 en NBD2 van het humane CFTR (P13569) (= resp. GSTGAGKT en GRTGSGKS). Geef deze aan met een kleurtje o.i.d. (maak ook een legenda waarin de aanduidingen die je gebruikt worden verklaard)
  2. Welke van de twee komt op dezelfde positie ook in alle andere sequenties in de MSA voor: het Walker A motief corresponderend met NBD1 of dat van NBD2? Geef die corresponderende Walker A motieven in de andere sequenties aan. Denk eraan: Je zoekt niet naar sequenties die exact overeenkomen met de humane NBD's, maar naar sequenties die overeenkomen met het Walker A motief: GXXGXGK(S,T)!
  3. Bij ABC-transporters bevat het complete transportsyteem, zoals we dat in het membraan aantreffen, twee NBD’s. Dit kan op twee manieren gestalte krijgen: de NBD’s bevinden zich in een en hetzelfde eiwit (zoals bij CFTR met zijn NBD1 en NBD2) of de NBD’s liggen op twee afzonderlijjke polypeptiden, die samen (met eventueel nog andere polypeptiden) het transportsysteem vormen. Met name bij bacteriën bestaat de complete transporter uit meerdere polypeptiden.
  4. In jouw MSA kun je zien of je eiwitten met twee NBD’s of met een NBD verzameld hebt door te bekijken of het Walker A motief respectievelijk twee of een keer voorkomt in een sequentie. Zoek in elke sequentie naar nog een exemplaar van het Walker A motief (GXXGXGK(S,T); tip: gebruik de zoekfunctie van Word door naar GK te zoeken en daaromheen de rest van de consensus te zoeken). Geef alle Walker A motieven die je vindt aan in de MSA. Concludeer voor elke sequentie of dit volgens jou een eiwit is met twee NBD’s of een eiwit met een NBD (dat dus nog een partner nodig heeft in het complete transportsysteem).
  5. Vergelijk jouw voorspelling van de NBD's met die in de SwissProt-records van de betreffende eiwitten (gebruik www.expasy.org). Kijk naar het aantal aangegeven NBD's (bij Features) en naar de quaternaire structuur (bij Comments). Je zult zien dat de NBD's meestal op basis van matchen met het Walker A motief zijn gelocaliseerd en niet via laboratorium-experimenten. Ze staan dan ook meestal vermeld als putative. Ook de quaternaire structuur wordt vaak logisch beredeneerd en is meestal niet in het lab uitgezocht. Noteer of jouw conclusies overeen komen met de gegevens over de NBD's en de quaternaire structuur van de zeven ABC-transporters in de SwissProt-records.
  6. Noteer voor elke transporter wat er bekend is over de functie van de gebruikte ABC-transporter en uit welk organisme de betreffende transporter afkomstig is.
  7. Pak je antwoorden uit vraag 2 erbij. Kloppen die met wat je gevonden hebt bij 9?
  8. En nu de interessantste vraag: In het algemeen is het zo dat bacteriële ABC-transporters een NBD per polypeptide bevatten (en dus in de dimere vorm actief zijn) en dat eukaryote ABC-transporters twee NBD's per polypeptide bevatten (en dus in de monomere vorm actief zijn). Toch blijken enkele van de hier geanalyseerde eukaryote ABC-transporters maar één NBD te bevatten! Welke zijn dit en hoe verklaar jij dit? Hint: bij de interpretatie van de output van bio-informatica programma's is biologische kennis onontbeerlijk!