Verantwoording

In deze verantwoording word je ingeleid in de bio-informatica en waarom kennis hiervan belangrijk is.

Auteurs: R. v.d. Bend, T. Graafsma en P. Rauch

Wat is bio-informatica?

Bio-informatica houdt zich bezig met vragen die uit het moderne, vaak grootschalige biologische – en biomedische onderzoek naar boven komen.  Vragen zoals: Wat vertelt een genetische kaart van een chromosoom (mens, dier, plant, micro-organisme) nu precies? Waar liggen de naar schatting 25.000 genen van de mens? Welke eiwitten worden door deze genen gecodeerd, en welke functies vervullen deze eiwitten in de cel? Maar ook: hoe werken die eiwitten samen om een organisme te laten functioneren? Wat gaat er fout in geval van ziekten?

Deze vragen maken het ook meteen duidelijk dat het erg moeilijk is om bio-informatica te definiëren. Letterlijk betekent bio-informatica het bestuderen van biologische data gebruikmakend van informatica-technieken. In het algemeen kun je zeggen dat de bio-informatica ten eerste als doel heeft om de enorme hoeveelheid aan gegevens zodanig op te slaan dat onderzoekers deze gegevens op een eenvoudige manier kunnen terugvinden en gebruiken. Een tweede doel binnen de bio-informatica is om hulpmiddelen (software) te ontwikkelen om het bestuderen van deze gegevens te vereenvoudigen.

Genomics

Een belangrijke stimulans voor de ontwikkeling van de bio-informatica is gespeeld door een relatief nieuw vakgebied binnen de life sciences: genomics (het Nederlandse begrip ‘genomica’ wordt in de praktijk vrijwel nooit gebruikt) . Wikipedia geeft de volgende definitie:

Genomica (Engels: genomics) is de studie van genomen, waarbij een genoom een (sub)set van genen is van een cel of organisme. Het begrip "genen" moet hierbij breed opgevat worden: ook niet-coderende gedeelten van het DNA worden vaak tot het genoom gerekend. Genomica-onderzoek kan gaan om genen van mens, dier, plant en micro-organismen. Bijvoorbeeld voor het zoeken naar de oorzaak en het verloop van ziekten, het onderzoeken van de werking en bijwerkingen van nieuwe medicijnen, plantenveredeling en de ontwikkeling van bacteriën die nuttige stoffen maken (medicijnen, vitaminen of bouwstenen voor kunststof). De genomica is een systeemwetenschap. Het is de eerste geweest in een serie van zogenaamde -omics, waaronder proteomics en metabolomics. Het kan beschouwd worden als een onderdeel van de systeembiologie, een stroming die organismen als geheel wil bestuderen met wetenschappelijke methoden, gebruik makend van de enorme hoeveelheid data die de laatste jaren door alle -omics-studies beschikbaar zijn gekomen.”

Bio-informatica heeft een zeer belangrijke rol gespeeld in de verwerking en interpretatie van gegevens afkomstig uit de genoomsequentie van de mens. Nog dagelijks worden nieuwe DNA-sequenties van verschillende genomen aan databanken aangeboden. Op de website van het NCBI (http://www.ncbi.nlm.gov/Genomes/index.html) vind je de genomen van enige honderden verschillende organismen. In deze genomen worden genen geïdentificeerd op basis van bestaande kennis, maar vooral voorspeld m.b.v. bio-informatica tools (zie Tabel 1).  Door nu al deze gegevens met elkaar te vergelijken (comparative genomics) kan men voorspellingen doen over de functies van nu nog onbekende genen in de mens.

 Tabel 1: Het aantal voorspelde genen en het % van het genoom dat codeert voor eiwitten, gegeven voor een aantal representatieve genomen

Organisme

Voorspelling van het aantal eiwit-coderende genen

% DNA dat codeert voor een eiwit

Escherichia coli

Gist

Worm

Fruitvlieg

Zandraket

Mens

5000

6000

18.000

14.000

25.500

21.400

90%

70%

27%

20%

20%

2%

Niet alleen het aantal genen neemt toe met de complexiteit van het organisme. Ook de complexiteit van het DNA wordt groter, onder andere af te lezen aan het % DNA dat niet codeert voor een eiwit (vroeger vaak ‘junk’-DNA genoemd). Het is nog steeds niet volledig duidelijk wat de functie van dit ‘junk’-DNA is.

Een mens heeft bijvoorbeeld 100 genen die afkomstig zijn van virussen. Er zijn meer dan 200 genen die afkomstig zijn van bacteriën! Momenteel wordt er geschat dat in de mens 300.000 verschillende eiwitten aanwezig zijn. Er worden dus gemiddeld veertien eiwitten van één gen afgelezen! Ongeveer 23 procent van alle genen maakt een eiwit waarmee andere genen ‘aan of uit’ gezet kunnen worden. Ongeveer 2 procent van al het DNA van een mens bestaat uit eiwit-coderende genen. De rest van het DNA bevat onder andere belangrijke voor allerlei RNA’s coderende genen, maar ook allerlei ‘overblijfselen’ uit de genetische historie van de mens. Van dit niet voor eiwitten coderende DNA worden de laatste jaren steeds meer geheimen ontsluierd.

Eiwitten

Onderzoek in de life sciences  is er onder andere op gericht het functioneren van levende organismen op moleculair niveau te bestuderen. Een belangrijk aspect van dit onderzoek is de structuur-functie analyse van eiwitten. Eiwitten vervullen vele essentiële functies in levende systemen, zoals het katalyseren van reacties (enzymen), het reguleren van enzymatische processen (regulatoreiwitten), verwerking van signalen (hormonen en receptors hiervoor), het bepalen van de vorm/structuur (structuureiwitten), enz.. Bij eukaryoten is het aantal verschillende eiwitten dat actief is in levende cellen in de orde van 104-105. In het verleden was eiwitonderzoek beperkt tot een klein aantal eiwitten die men met veel moeite had weten te zuiveren uit biologische preparaten. Met de komst van allerlei moderne technieken in de moleculaire biologie is het mogelijk is geworden het gehele genoom van organismen “af te lezen”, d.w.z.: de erfelijke informatie (nucleotidenvolgorde van het DNA) is nu in zijn geheel te bepalen voor een organisme. Voor een aantal organismen, waaronder de mens, is dit inmiddels gebeurd. Hierdoor kunnen nu alle eiwitcoderende genen van een organisme in kaart gebracht worden. Hierbij gaat het bij eukaryote organismen vaak om 10.000-den verschillende genen, waardoor het werken met deze gegevens een zeer complexe aangelegenheid is. Deze complexiteit wordt extra verhoogd doordat veel van deze eiwitcoderende genen vaak vertaald worden in meerdere eiwitproducten als gevolg van alternative splicing en post-translationele modificaties. Gezien deze complexiteit is het analyseren van databanken m.b.v. computers een belangrijk aspect geworden van het onderzoek in de life sciences. Op deze wijze is een nieuw vakgebied van de bio-informatica tot stand gekomen: experimenten in silico, dat wil zeggen het voorbereiden en/of uitvoeren van experimenten achter de computer.

Toepassingen van de bio-informatica in biologisch onderzoek (enkele voorbeelden)

In het genoom van de mens (dat nu in z’n geheel gesequenced is) zijn nog veel genen aanwezig die coderen voor eiwitten waarvan de functie onduidelijk is. Via bio-informatica kunnen de nucleotidesequenties uit het genoom vergeleken worden met die van organismen waar veel meer van bekend is. Voorbeelden van dergelijk goed bestudeerde organismen zijn Drosophila (fruitvlieg), Caenorhabditis elegans (een bepaald soort worm), Saccheromyces cerevisiae (gist) en muizen.
Voorbeelden:
(a) Bij Drosophila zijn al veel genen geïdentificeerd die bij de embryogenese een rol spelen. Dergelijke genen (met een vrij grote overeenkomst in nucleotidesequentie) zijn ook gevonden bij de mens. Dit biedt de mogelijkheid het proces van embryogenese bij de mens beter te begrijpen (alhoewel deze niet op dezelfde wijze verloopt als bij Drosophila!).
(b) De rol van bepaalde genen bij ziekten bij de mens kan bestudeerd worden door in het muizengenoom vergelijkbare genen op te sporen. Bij muizen kan beter onderzocht worden welke functies dergelijke genen hebben.

De functie van eiwitten kan onderzocht worden door de domeinstructuur van een eiwit op te helderen. Eiwitten zijn opgebouwd te denken uit domeinen, waarbij ieder domein een eigen functie heeft. Eiwitten hebben op deze wijze vaak meerdere functies. Deze domeinen hebben vaak een herkenbare 3D-structuur en zijn vaak herkenbaar aan een karakteristieke aminozuurvolgorde. Door  een nieuw eiwit te analyseren m.b.v. een databank met daarin de aminozuurvolgorde van bekende domeinen, kan dus informatie over de functie(s) van een eiwit verkregen worden

Door vergelijking van aminozuur- en nucleotidesequenties van genen kunnen evolutionaire verwantschappen tussen organismen in kaart gebracht worden. Op deze wijze kan men ook inzichten verkrijgen in complexe biologische processen bij de mens.

Het analyseren van genen/DNA fragmenten op zgn. leestekens: bijv. de aanwezigheid van “restrictiesites” (om mutaties op te kunnen zoeken), promotorsequenties (om te weten te komen hoe de expressie van genen wordt gereguleerd), zgn. “splicesites” (om altenatieve expressievormen van een gen te weten te komen), etc..

Identificatie van nader te identificeren eiwitten m.b.v. massaspectrometrie. Voor de meeste geïsoleerde en gekarakteriseerde eiwitten zijn fragmentpatronen verkregen m.b.v. massaspectrometrie en verwerkt in databanken, waarmee de identificatie van eiwitten in biologische preparaten mogelijk wordt. Dit valt onder het vakgebied van de proteomics. Er zijn diverse software tools en databanken beschikbaar om deze identificatie-strategie mogelijk te maken.