Studietaak 7: Het maken van een database

Gemaakt door T. Graafsma (met aanpassingen door P. Rauch)

Uit te voeren in duo's (eventueel individueel)

Achtergrond

Tijdens bio-informatica-onderzoek werk je vooral met databases. Je kunt daarin zoeken, omdat de gegevens daarin op een gestructureerde manier zijn opgeslagen. Gegevens opslaan op een computer kan op verschillende manieren:

Programmaís voor het werken met databases (database management systems ofwel dbms-en genoemd) zijn te verdelen in programmaís voor een enkele gelijktijdige gebruiker (bijvoorbeeld Access) en programmaís voor meer gelijktijdige gebruikers (bijvoorbeeld Oracle, MySQL). De bekende databases, zoals die van de NCBI, worden in de laatste categorie bijgehouden. De principes zijn voor beide typen wel gelijk.

Tijdens het doen van onderzoek wordt ook veel informatie verzameld. Deze wil je voor allerlei doeleinden gebruiken en moet dus makkelijk en flexibel toegankelijk zijn. Daarvoor is nodig dat goed wordt nagedacht welke informatie in welke structuur wordt bijgehouden, en dat de opslag met een geschikt programma gebeurt.

De opdracht

Van veel peptidenverbindingen is bekend dat ze een bio-actieve werking hebben. Bekende voorbeelden hiervan zijn allerlei cytokines en hormonen, die van nature in organismen een regulerende rol hebben in tal van processen. Daarnaast is voor tal van peptideverbindingen waarvan een fysiologische rol (nog) niet bekend is, gevonden dat ze antibacterieel, immunomodificerend, bloeddrukverlagend, neuro-actief etc. kunnen werken. Het spreekt vanzelf dat vanuit biotechnologisch oogpunt er grote belangstelling is dergelijke peptiden te kunnen produceren en op de markt te brengen, denk aan functional foods of voeding voor bijvoorbeeld kankerpatiŽnten die herstellen van een chemokuur.

Het type peptideverbindingen waar het om gaat zijn meestal qua aminozuurvolgorde vrij klein (< 50 aminozuren) en kunnen op twee manieren verkregen worden: (1) via een organisch-synthetische route of (2) via isolatie uit eiwitfracties van biologische oorsprong. Commercieel gezien biedt vooral de tweede manier de mogelijkheid peptideverbindingen goedkoop te produceren. Bij deze methode wordt ervan uitgegaan dat bepaalde peptidevolgordes waarvoor een bio-actieve werking is aangetoond vaak (bij toeval) te vinden zijn in de aminozuurvolgordes van natuurlijk voorkomende eiwitten.

In deze studietaak is het de bedoeling dat men een toegankelijk databestand opbouwt, waarin de verschillende peptiden met hun bio-actieve werking zijn opgenomen die in een bepaalde biologische bron te vinden zijn. Tevens moet daarbij de methode waarmee deze peptiden verkregen kunnen worden, aangegeven zijn. Zoals toegelicht moet eerst goed worden nagedacht welke gegevens relevant zijn en hoe die efficiŽnt kunnen worden opgeslagen. Er moet dus eerst een datamodel worden opgesteld. Verplaats je daarbij in de schoenen van een lid van de onderzoeksgroep die met deze gegevens gaat werken. Het datamodel wordt uitgewerkt in het programma Access van Microsoft. Het moet hiervoor voldoende informatie bevatten, dus niet alleen de namen van de gegevens (velden), maar ook de veldtypen, veldlengtes en eventuele constraints (voorwaarden voor de invoer van de velden). Het niet nodig de tabellen volledig in te vullen met alle mogelijke peptiden. Eerste zorg is het aanmaken van een goed bruikbare database, die in de loop van het onderzoek geleidelijk gevuld zou worden met de gevonden peptiden. Een deel ervan kun je dus tijdens het uitvoeren van deze opdracht al invoeren.

De verschillende stappen waarlangs men werkt aan deze studietaak zijn als volgt:

(1)   Zoek een biologische bron (melk, serum, bepaalde gewassen, etc.), waarin bepaalde eiwitten in hoge concentratie voorkomen die mogelijk geschikt zijn voor het produceren van bio-actieve peptiden.

(2)   Zoek via het web methoden waarmee de eiwitten gevonden onder (1) in peptiden geknipt kunnen worden.

(3)   Zoek in databestanden op het web naar de mogelijke bio-actieve werking van de verschillende peptiden gevonden onder (2).

(4)   Zoek uit welke gegevens relevant zijn in het kader van het onderzoek en op welke manier deze gestructureerd kunnen worden opgeslagen.

(5)   Stel hiervoor een datamodel op.

(6)   Realiseer dit datamodel in Access en voer een selectie van de gegevens in.

(7)   Breid de database eventueel uit met overzichtelijke invoerformulieren en rapporten.

Inleveren

Het datamodel met toelichting wordt ingeleverd als Word-bestand, samen met de Access database die op basis van het datamodel is gerealiseerd.