Table Of ContentLes Puces à ADN sur lames de verre :
principes et méthodes de confection, d’application
expérimentale et d’analyse des données.
Waka LIN
Extraits du mémoire de la thèse de doctorat :
« Applications de la technologie des Puces à ADN à l’étude de la
différenciation méiotique et des mécanismes de recombinaison chez la
levure Saccharomyces cerevisiae »
Soutenue le 27 avril 2004.
Equipe Alain NICOLAS
UMR144 CNRS – Institut Curie, Section de Recherche
Sommaire
I. Introduction : la technologie des puces à ADN.............................................................5
1. Avancées de la génomique fonctionnelle chez la levure.............................................5
2. Définition et principaux types de puces à ADN..........................................................6
3. Application à l’analyse de l’expression transcriptionnelle..........................................8
3.1. Principe général..........................................................................................................................8
3.2. Les études comparatives de transcriptomes..............................................................................10
3.3. Autres variantes de l’analyse de l’expression transcriptionnelle..............................................11
4. Application à l’analyse des génomes ........................................................................11
4.1. La localisation des sites d’interaction de protéines avec la chromatine....................................12
4.2. La détection du nombre de copies d’ADN par CGH-array.......................................................14
4.3. La détection de mutations et le génotypage de polymorphismes..............................................15
4.4. La détection et le criblage d’organismes spécifiques et de souches portant des marqueurs
d’identification..........................................................................................................................15
II. Confection des puces de type « spotted microarrays »...............................................17
1. Amplification des sondes par PCR............................................................................17
1.1. Choix des produits à déposer....................................................................................................17
1.2. Amplification par PCR, purification et stockage des sondes d’ADN.......................................18
1.3. Contrôle des produits de PCR par électrophorèse.....................................................................19
2. Impression robotisée des lames.................................................................................20
2.1. Types de lames utilisées pour l’impression..............................................................................20
2.2. Dépôt des produits de PCR par le robot....................................................................................21
2.3. Coordonnées des gènes sur la matrice imprimée......................................................................22
3. Traitement de finition et préhybridation des lames...................................................23
III. Préparation des cibles et hybridation des puces.........................................................24
1. Préparation des échantillons d’ARN.........................................................................24
1.1. Extraction des ARN totaux et messagers..................................................................................24
1.2. Mesure de la concentration et contrôle de la qualité des ARN.................................................25
2. Transcription inverse et incorporation des marqueurs fluorescents..........................27
3. Hybridation et lavage.................................................................................................28
IV. Acquisition et analyse des données..............................................................................29
1. Acquisition des données brutes.................................................................................29
1.1. Lecture sur le scanner...............................................................................................................29
1.2. Extraction des données numériques..........................................................................................30
2. Transformation et stockage des données...................................................................31
2.1. Filtrage primaire des données brutes........................................................................................31
2.2. Le calcul des ratios d’expression..............................................................................................31
2.3. La normalisation.......................................................................................................................32
2.4. Le stockage dans des bases de données et le suivi des expériences..........................................34
3. Analyse et interprétation des résultats.......................................................................36
3.1. La mesure de l’expression différentielle...................................................................................36
3.2. Le regroupement hiérarchique des profils d’expression...........................................................38
3.3. La comparaison avec les données existantes............................................................................41
3.4. Réflexions sur la conception de l’expérience biologique..........................................................43
1
V. Guide de diagnostic des anomalies...............................................................................46
1.1. Problèmes liés à l’aspect des spots...........................................................................................47
1.2. Problèmes de bruits de fond sur la lame...................................................................................48
1.3. Faible intensité de signal...........................................................................................................49
1.4. Données biaisées détectées à l’analyse.....................................................................................50
VI. Protocoles expérimentaux.............................................................................................51
VII. Références bibliographiques.........................................................................................56
2
Liste des abréviations :
ADN Acide DésoxyriboNucléique kb kilo paires de bases
ADNc ADN complémentaire kDa kilo Dalton
aa-dUTP amino-allyl dUTP Lowess Locally weighted scatter plot smoothing
AMAD Another MicroArray Database MI 1re division de méiose
APC Anaphase-Promoting Complex MII 2e division de méiose
APS Ammonium Persulfate MAGEML MicroArray Gene Expression Markup
ARN Acide RiboNucléique Language
ARNm ARN messager MGED Microarray Gene Expression Database
ARNr ARN ribosomique MIAME Minimal Information About a Microarray
Experiment
ATM Ataxia-Telangiectasia Mutated
MIPS Munich Information center for Protein
ATR ATM-Rad3-Related
Sequences
BASE BioArray Software Environment
MMS Méthyl Méthane Sulfonate
BSA Bovine Serum Albumin
MSE Middle Sporulation Element
CDBs Cassures Double-Brin
NHS-ester N-Hydroxysuccinimidyl ester
CEA Commissariat à l’Energie Atomique
NRE Negative Regulatory Element
CGH Comparative Genomic Hybridization
ORF Open-Reading Frame
Cdk Cyclin-dependent kinase
pb paire de bases
ChIP Chromatin Immuno-Precipitation
PCR Polymerase Chain Reaction
Cy3 Cyanine 3
PPG Polypropylène Glycol
Cy5 Cyanine 5
RNase Ribonucléase
DAPI Diamino-Phenylindole
RNR Ribonucléotide Réductase
dATP désoxy Adénosine Triphosphate
Rr/v Ratio des signaux d’hybridation
dCTP désoxy Cytosine Triphosphate rouge/vert
DEPC Diéthyl Pyrocarbonate R Ratio d’expression au temps t, relatif au
t/0h
dGTP désoxy Guanine Triphosphate temps initial t=0h
DMSO Diméthyl Sulfoxyde SAGE Serial Analysis of Gene Expression
DNase Désoxyribonucléase SDS Sodium Dodécyl Sulfate
dNTP désoxy Nucléotide Triphosphate SGD Saccharomyces Genome Database
dUTP désoxy Uracile Triphosphate SNP Single-Nucleotide Polymorphism
DTT DithioThréitol SSC Saline Sodium Citrate
dTTP désoxy Thiamine Triphosphate TCA Trichloro Acetic Acid
EDTA Acide Ethylène Diamine Tétra-acétique TE TRIS-EDTA
ENS Ecole Normale Supérieure TEMED Tétraméthyl Ethylène Diamide
ESPCI Ecole Supérieure de Physique et UV Ultra-Violet
Chimie Industrielle UAS Upstream Activator Sequence
FACS Fluorescence-Activated Cell Sorting URS1 Upstream Repressor Sequence 1
GO Gene Ontology yMGV yeast Microarray Global Viewer
HEPES Hydroxyethyl Piperazine Ethanesulfonic YPD Yeast Proteome Database, ou milieu
HU Hydroxyurée Yeast Peptone Dextrose
Ir Intensité du signal rouge
Iv Intensité du signal vert
3
Avertissements – nomenclature utilisée dans ce document :
- Dans le texte qui suit, les fragments d’ADN fixés à la surface de la puce sont appelés « sondes »
(« probe » en anglais), et les séquences nucléiques contenues dans l’échantillon à analyser sont
appelées « cibles » (« target » en anglais), comme il a été convenu et recommandé notamment dans le
manuel « DNA Microarrays » (Bowtell et Sambrook, 2003) [3], et le dossier « The Chipping Forecast
II » (Nature Genetics supplement, 2002) [4]. Les termes sont parfois inversés selon les publications.
- Pour faciliter la lecture, j’ai conservé certains termes spécialisés couramment utilisés en anglais sans
les traduire systématiquement en français, notamment « spot » (dépôt de fragments d’ADN sur une
puce à ADN), « ORF » (open-reading frame = cadre ouvert de lecture), « checkpoint » (mécanisme de
surveillance moléculaire induisant une réponse cellulaire aux dommages à l’ADN, aux défauts de
réplication ou de recombinaison), « cluster » (ensembles de données obtenus grâce à une analyse par
regroupement hiérarchique), « ChIP-on-Chip » (chromatine-immunoprécipitation et analyse sur puces
à ADN).
- En accord avec la nomenclature internationale, les noms des gènes de S. cerevisiae sont indiqués en
italiques, en majuscule lorsque le gène est sauvage (exemple : SPO11) et en minuscule lorsqu’il est
inactivé et récessif (spo11). Les protéines correspondantes sont désignées avec une lettre initiale
majuscule (Spo11).
4
I. Introduction : la technologie des puces à ADN
1. Avancées de la génomique fonctionnelle chez la levure
L’essor fulgurant des études de génomique fonctionnelle, faisant suite aux avancées des
projets internationaux de séquençage des génomes amorcés à la fin des années 80, suscite
aujourd’hui un très grand intérêt expérimental et conceptuel ([5] pour revue). Les séquences
des génomes entiers de nombreux organismes sont désormais connues – plus de 100 bactéries,
1000 virus, et plusieurs eucaryotes modèles tels que les levures S. cerevisiae, S. pombe, C.
albicans, la drosophile D. melanogaster, l’arabidopsis A. thaliana et le nématode C. elegans1
[6] – ainsi que de la majeure partie du génome humain publié en avril 2003 [7, 8]. L’enjeu
réside à présent dans la caractérisation de la fonction des gènes et des voies de régulation leur
permettant de réaliser les processus biologiques dans lesquels ils sont impliqués. Des outils et
des stratégies innovants se sont développés afin de répondre aux besoins d’une exploration
par des analyses fonctionnelles systématiques à l’échelle de la globalité du génome.
La levure boulangère Saccharomyces cerevisiae est reconnue depuis longtemps comme un
modèle de choix pour les études génétiques classiques. Ce microorganisme est non pathogène,
a une croissance rapide dans des conditions de cultures simples, en étant stable aussi bien a
l’état haploïde que diploïde, et la grande efficacité de la transformation par recombinaison
homologue facilite l’introduction de mutations et l’application de nombreuses techniques
d’analyses moléculaires et cellulaires. S. cerevisiae se prête aussi particulièrement bien au
développement des méthodes d’analyse génomique à haut débit. Elle a été le premier
organisme eucaryote dont le génome a été séquencé, grâce à un programme de collaboration
européen puis mondial initié par A. Goffeau en 1989 et achevé en 1996 [9]. Son génome est
relativement petit, comportant un total d’environ 12 mégabases réparties sur 16 chromosomes.
Les bases de données de référence (SGD2 [10], MIPS3 [11], YPD4 [12]) recensent aujourd’hui
environ 5800 ORFs confirmés et plus de 800 ORFs dits « hypothétiques ». Près de 70% de
l’ADN non-ribosomal code pour des protéines et très peu de gènes (263) contiennent des
introns. Enfin, la plupart des fonctions cellulaires fondamentales caractérisées chez S.
cerevisiae sont conservées chez les organismes supérieurs : près de 50% des gènes humains
impliqués dans des maladies génétiques héréditaires ont des homologues identifiés chez la
levure. La connaissance de son génome offre ainsi un grand intérêt aussi bien pour l’étude de
l’évolution et de l’adaptation des espèces que pour prédire la fonction de gènes chez l’homme.
1 Site d’accès à GenBank par Entrez au NCBI : http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db = Genome
2 Site de Saccharomyces Genome Database : http://www.yeastgenome.org/
3 Site du Munich Information Center for Protein Sequences : http://mips.gsf.de/genre/proj/yeast/index.jsp
4 Site du Proteome BioKnowledge Library de Incyte : https://www.incyte.com/control/tools/proteome
5
Parmi les gènes identifiés chez S. cerevisiae, plus de 2000 codent pour des protéines de
fonction inconnue [9, 13]. L’attention portée à l’étude fonctionnelle chez la levure a conduit à
l’émergence de nombreuses approches d’analyses globales ([14, 15] pour revue) : production
et caractérisation phénotypique de collections de mutants (issus de mutagenèse aléatoire [16],
de délétion systématique de chaque ORF du génome [17, 18] ou d’insertion de marqueurs
protéiques [19, 20]), analyse de l’expression transcriptionnelle [21, 22] ou protéique [23] sur
« biopuces », études d’interactions protéines-protéines par des systèmes « double-hybride » à
grande échelle [24, 25], d’interactions protéines-chromatine par « ChIP-on-Chip » [26, 27] et
études protéomiques par analyses biochimiques [28] ou spectrométrie de masse [29, 30]. Dans
ce contexte, la technologie des « puces à ADN » s’est imposée en quelques années comme un
outil majeur de la génomique fonctionnelle.
2. Définition et principaux types de puces à ADN
Une puce à ADN, aujourd’hui communément appelée « DNA microarray » en anglais (de
« array » = rang ordonné), est constituée de fragments d’ADN immobilisés sur un support
solide selon une disposition ordonnée. Son fonctionnement repose sur le même principe que
des technologies telles que le Southern blot ou le northern blot, qui sont couramment utilisées
pour détecter et quantifier la présence d’une séquence nucléique spécifique au sein d’un
échantillon biologique complexe, par hybridation à une sonde de séquence complémentaire
portant un marquage radioactif [31]. La confection des puces à ADN a permis d’étendre ce
principe à la détection simultanée de milliers de séquences en parallèle. Une puce comporte
quelques centaines à plusieurs dizaines de milliers d’unités d’hybridation appelées « spots »
(de l’anglais spot=tache), chacune étant constituée d’un dépôt de fragments d’ADN ou
d’oligonucléotides correspondant à des sondes de séquences données. L’hybridation de la
puce avec un échantillon biologique, marqué par un radioélément ou par une molécule
fluorescente, permet de détecter et de quantifier l’ensemble des cibles qu’il contient en une
seule expérience.
D’abord conçues sur des membranes poreuses de nylon (appelées parfois « macroarrays » par
opposition aux « microarrays »), les puces à ADN ont été progressivement mises au point sur
lames de verre à la fin des années 90. La miniaturisation, rendue possible par l’utilisation d’un
support solide, de marqueurs fluorescents et par les progrès de la robotique, permet
aujourd’hui de fabriquer des puces comportant une très haute densité de spots, susceptibles de
recouvrir l’intégralité du génome d’un organisme sur une simple lame de microscope. On
distingue plusieurs types de puces selon la densité des spots, le mode de fabrication, la nature
des fragments fixés à la surface et les méthodes d’hybridation. Les caractéristiques des puces
les plus courantes sont résumées dans le Tableau 1.
6
« Macroarray » « Microarray spottée » « GeneChips » de Affymetrix
- support : membrane de nylon - support : lame de verre à - support : lame de verre à
revêtement chimique revêtement chimique
- taille des spots : 0,5-1mm
- taille des spots : ~100µm - taille des spots : ~20µm
- densité : quelques centaines de
spots/cm2 - densité : 1000-10000 spots/cm2 - densité : jusque 250000 spots/cm2
- sondes : produits de PCR - sondes : produits de PCR ou - sondes : oligonucléotides courts
oligonucléotides longs (30-70mers) (20-25 mers) synthétisés in situ
- cibles : ADNc avec marquage
radioactif au 32P - cibles : ADNc ou produits de PCR - cibles : ARNc ou produits de
avec marquage fluorescent au Cy3 PCR avec marquage fluorescent à
- principales applications : analyse
et Cy5 la biotine-streptavidine
de l’expression des gènes
- principales applications : analyse - principales applications : analyse
de l’expression, ChIP-on-Chip, de l’expression, détection de
CGH-array marqueurs moléculaires
Tableau 1 : Principaux types de puces à ADN
Les deux technologies dominantes sont les puces dites « spottées » par un dépôt robotisé de
produits de PCR ou de longs fragments oligonucléiques (« spotted microarrays ») et les puces
à oligonucléotides synthétisés in situ :
(cid:131) La méthode de fabrication des puces « spottées » a été développée par l’équipe de P.
Brown à l’Université de Stanford, aux Etats-Unis [21]. Elle est aujourd’hui bien établie
et de nombreuses plate-formes de production sont implantées dans les laboratoires
académiques. Des solutions d’ADN sont préparées soit par amplification PCR à partir du
génome ou de banques d’ADN complémentaires, soit par synthèse d’oligonucléotides
longs (30-70 mers). Des micro-gouttelettes de ces solutions sont ensuite déposées par un
robot, selon une matrice d’emplacements définis, sur une lame de verre traitée par un
revêtement chimique qui permet de fixer l’ADN. En général, chaque spot de la matrice
correspond à un gène donné. Les robots nécessaires à la fabrication de ces puces étaient
construits à l’origine de manière artisanale dans chaque laboratoire selon le modèle
conçu par J. DeRisi et dont les plans de montage et le logiciel de pilotage sont
disponibles sur Internet 5 . Aujourd’hui, il existe plusieurs modèles commerciaux
5 Site The MGuide. Version 2.0 : http://cmgm.stanford.edu/pbrown/mguide/index.html
7
permettant d’obtenir des rendements de quelques dizaines à plusieurs centaines de lames
en une seule série de production de quelques heures. Nous utilisons actuellement ce type
de puces au laboratoire et je détaillerai les méthodes de fabrication et d’utilisation dans la
suite de ce document.
(cid:131) Les puces à oligonucléotides synthétisés in situ par photolithographie [32]
(« GeneChips » de la société Affymetrix) ou par impression « jet d’encre » [33] (Agilent
Technologies / Rosetta Inpharmaceutics) ne peuvent être produites que par des sociétés
industrielles spécialisées, mais elles sont également de plus en plus utilisées et elles
bénéficient désormais d’une importante diversification, d’une certaine baisse des prix et
d’un contrôle de qualité accru. Une contrainte souvent posée par l’utilisation de ces
puces est qu’elle nécessite en général l’emploi de méthodes et d’équipements imposés
par le fournisseur (type de lecteurs, de logiciels d’analyse…) et que les licences de
propriété industrielle ne permettent pas l’accès à certaines informations (telles que la
séquence des sondes présentes sur la puce). La dépendance vis-à-vis de ces sociétés
commerciales reste ainsi très forte. Il a été aussi souvent reproché un certain manque de
souplesse, comme notamment les contraintes de production ne permettaient pas de
fabriquer en quantité réduite des puces spécifiques à des besoins particuliers, mais
d’importants progrès semblent avoir été accomplis à ce niveau face à l’accroissement de
la demande (fabrication de puces à façon, diversification et adaptation des types de puces
proposés à de nouvelles applications et de nouveaux organismes…).
Quel que soit le type de puces, le succès de la technologie a entraîné, depuis le début des
années 2000, un élargissement considérable du choix des équipements et des protocoles
expérimentaux, aussi bien pour la fabrication des lames que pour l’amélioration des
conditions de manipulation en vue d’optimiser la sensibilité, la spécificité et la
reproductibilité de la méthode ([34] pour revue). Les études exploitant l’utilisation des puces
à ADN se multiplient rapidement dans des domaines d’application variés. Désormais, l’accent
est mis prioritairement sur le besoin de rationaliser la gestion des expériences et de
développer des systèmes de stockage et d’analyse de la masse de données générée. Les
paragraphes suivants présentent les applications les plus courantes, illustrées d’exemples
choisies en particulier parmi les nombreuses études publiées sur la levure S. cerevisiae.
3. Application à l’analyse de l’expression transcriptionnelle
3.1. Principe général
L’analyse de l’expression transcriptionnelle des gènes (parfois appelée « expression
profiling ») a été la première application pour laquelle la technologie des puces à ADN a été
développée avec succès. C’est encore l’application largement dominante aujourd’hui.
L’hybridation d’un échantillon biologique sur une puce à ADN permet d’identifier et de
8
mesurer l’abondance des espèces d’ARN messagers (ARNm) qu’il contient. Dans la suite de
mon étude, pour simplifier, le terme expression désignera, sauf indication contraire,
l’expression transcriptionnelle, c’est-à-dire la production d’ARNm transcrits à partir de la
matrice d’ADN d’un gène activé.
(cid:131) L’utilisation des puces « spottées » permet d’acquérir une mesure relative du niveau
d’expression des gènes dans un échantillon cellulaire par rapport à un témoin de référence, par
exemple une souche mutée comparée à une souche sauvage, ou des cellules cultivées dans
deux conditions différentes. Le principe expérimental est résumé dans la Figure 1:
ADN àdéposer
échantillon référence
Impression robotisée Extraction
d’ARNm a
Cy5 Cy3
b
Cibles d’ADNc avec marquage fluorescent
c
Hybridation et lecture
Figure 1 : Principe général de l’analyse de l’expression transcriptionnelle sur une puce de type « spottée »
(a) L’ensemble des ARNm sont extraits des prélèvements de cultures cellulaires à analyser.
(b) Une transcription reverse est réalisée en présence de nucléotides modifiés permettant de
coupler un marqueur fluorescent. Des cibles d'ADN complémentaires (ADNc)
représentatives de l'ensemble des gènes exprimés pour chaque culture sont ainsi obtenues.
(c) Les deux échantillons sont marqués par des fluorochromes à spectres d’émission distincts
(les plus couramment utilisées sont les carbocyanines Cy3 et Cy5) et hybridées
simultanément sur une même puce. Au contact de la puce, les brins d'ADNc marqués
s'apparient avec les sondes de séquence complémentaire sur la lame. La mesure de
l’intensité du signal fluorescent émis sur chaque spot permet ainsi d’estimer le taux
d’expression différentiel du gène correspondant.
(cid:131) L’utilisation de puces à oligonucléotides de type Affymetrix permet de quantifier en
théorie l’abondance absolue de chaque ARNm transcrit. Les ARNm de l’échantillon à
9
Description:au cours de la méiose et de la sporulation [37, 38], .. de PCR (le nouveau robot Biorobotics propose une option « soft touch » permettant de ralentir