Comprehensive analysis of human transcription factor binding sites with ChIP-seq and topological arrangements of transcription factor complexes on the DNA

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

A transzkripciós faktorok (TF) olyan fehérjék, melyek a genom specifikus régióihoz kapcsolódnak és a megfelelő gének expresszióját befolyásolják. ChIP-seq technika segítségével azonosíthatjuk ezeknek a fehérjéknek a genomi lokalizációit, melyeket az eljárás során úgynevezett csúcs régióként detektálunk. Ezek azonban a fehérjéknek csak a megközelítőleges helyzetet mutatják meg az eljárás alacsony felbontása miatt. Ezekben a régiókban a legnagyobb fragment lefedettségű bázis azonosítása (csúcspont) nyújt segítséget a valódi DNS-fehérje interakciós pont megtalálásához. Olyan csúcspont alapú technikát fejlesztettünk ki, mellyel ChIP-seq adatokból kinyerhető egy fehérje pontos genomi pozíciója közel bázis-pár felbontással. Ezt a módszert használtuk a CTCF/kohezin komplex vizsgálatánál, amely jelentős szerepet játszik a DNS-hurkok létrehozásában. A komplex alkotóelemeinek relatív helyzetét 1 bázispáros pontossággal határoztuk meg, majd az eredményeket három dimenziós DNS modellen ábrázoltuk. Ezzel következtetni tudtunk a komplex topológiájára, ami lehetővé tette számunkra, hogy elkészítsük a CTCF/kohezin mediálta DNS hurkolódási modellünket. Ebben az úgynevezett kettős gyűrű elméletet használtuk fel, melyben a DNS hurok létrehozásában két kromatin gyűrű vesz részt. Ezt követően a csúcspont alapú fehérje pozíció meghatározást más proteinekre is kiterjesztettünk. Olyan adatbázis elkészítését tűztük ki célul, mely a lehető legtöbb azonosított transzkripciós faktor kötőhelyet tartalmazza és vizsgálni lehet a velük korrelációba hozható fehérjéket különböző sejttípusokban. Ehhez több mint 3700 humán ChIP-seq adatot töltöttünk le szekvencia adatbázisokból és a JASPAR CORE motívum adatbankot használtuk a kötőhelyek megtalálásához. Az adatokat egységes módon dolgoztuk fel, hogy azok összehasonlíthatóak legyenek. Ennek eredményeként genom szinten tudtuk azonosítani a cisztrómok genomi pozícióit 292 különböző típusú transzkripciós faktor esetében. Az azonosított kötőhelyeken vizsgálható, hogy mely faktorok fordulnak elő az adott régiókban, mely sejttípusokban és ezek milyen preferált pozícióiban helyezkednek el a motívum centrumához és egymáshoz viszonyítva. Az adatbázishoz készítettünk egy interaktív webes felületet, melyen keresztül a feldolgozott ChIP-seq adatok nem csak nyilvánosan elérhetővé és letölthetővé váltak, de a különböző megjelenítési módokban az eredményeink böngészhetőek is: http://summit.med.unideb.hu/summitdb/.


Transcription factors (TF) are proteins, which recognize specific regions on the genome and influence the expression of corresponding genes. The role of these factors can be investigated by analysing ChIP-seq experiments. ChIP-seq is powerful technique for genome wide measurement of transcription factor binding sites (TFBSs). We detect the genomic localization of specific proteins as so called peak regions. The summit of a peak have the highest coverage of the region and are known to more-or-less coincide with the bound DNA elements.
We developed a peak summit-based analysis method to identify the most likely location of the genomic contact region of the DNA-protein interactions at base-pair resolution from ChIP-seq data. We applied this method for analyzing the CTCF/cohesin complex, which holds together DNA loops. The relative positions of the constituents of the complex were determined with one-basepair estimated accuracy. Mapping the positions on a 3D model of DNA made it possible to deduce the approximate local topology of the complex that allowed us to predict how the CTCF/cohesin complex locks the DNA loops. As the positioning of the proteins was not compatible with previous models of loop closure, we proposed a plausible “double embrace” model in which the DNA loop is held together by two adjacent cohesin rings in such a way that the ring anchored by CTCF to one DNA duplex encircles the other DNA double helix and vice versa. Then we extended our analysis to other transcription factors and we created a genome wide transcription factor binding site database with combination of the JASPAR non-redundant TF binding profile set and data from bioinformatical analysis of more than 3700 ChIP-seq sequencing data downloaded from SRA database. The data are uniquely processed, which makes the result comprehensive. The result of the data processing is not only a transcription factor binding site (TFBS) database, but complete pipelines for deep ChIP-seq analysis. The pipelines automatize the data collection from SRA database, proper naming of experiments, basic ChIP-seq analysis (peak, summit prediction), binding site prediction with motif optimization (identification of real transcription factor binding sites) and distance measurement for topological data extraction. The database contains position information (distance information measured in base pair) about the surrounding ChIP-seq summits (targeted different factors from several cell lines) around each identified transcription binding sites. Our data if freely downloadable and viewable. The ChIPSummit database has an intuitive web interface with six different views (Motif, PairShift, VennDiagram, Experiment, Genome and SNP) and freely available for browsing at the following address: http://summit.med.unideb.hu/summitdb/.

Leírás
Kulcsszavak
ChIP-seq, transcription factor, binding site, peak, summit, database, transcription factor binding site (TFBS), High-Throughput Sequencing (HTS), CTCF, chromatin looping, cohesin
Forrás