Comprehensive analysis of human transcription factor binding sites with ChIP-seq and topological arrangements of transcription factor complexes on the DNA

dc.contributor.advisorBarta, Endre
dc.contributor.authorCzipa, Erik
dc.contributor.authorvariantCzipa, Erik
dc.contributor.departmentMolekuláris sejt- és immunbiológia doktori iskolahu
dc.contributor.submitterdepDE--Általános Orvostudományi Kar -- Biokémiai és Molekuláris Biológiai Intézet
dc.date.accessioned2020-01-07T09:20:56Z
dc.date.available2020-01-07T09:20:56Z
dc.date.created2019hu_HU
dc.date.defended2020-01-15
dc.description.abstractA transzkripciós faktorok (TF) olyan fehérjék, melyek a genom specifikus régióihoz kapcsolódnak és a megfelelő gének expresszióját befolyásolják. ChIP-seq technika segítségével azonosíthatjuk ezeknek a fehérjéknek a genomi lokalizációit, melyeket az eljárás során úgynevezett csúcs régióként detektálunk. Ezek azonban a fehérjéknek csak a megközelítőleges helyzetet mutatják meg az eljárás alacsony felbontása miatt. Ezekben a régiókban a legnagyobb fragment lefedettségű bázis azonosítása (csúcspont) nyújt segítséget a valódi DNS-fehérje interakciós pont megtalálásához. Olyan csúcspont alapú technikát fejlesztettünk ki, mellyel ChIP-seq adatokból kinyerhető egy fehérje pontos genomi pozíciója közel bázis-pár felbontással. Ezt a módszert használtuk a CTCF/kohezin komplex vizsgálatánál, amely jelentős szerepet játszik a DNS-hurkok létrehozásában. A komplex alkotóelemeinek relatív helyzetét 1 bázispáros pontossággal határoztuk meg, majd az eredményeket három dimenziós DNS modellen ábrázoltuk. Ezzel következtetni tudtunk a komplex topológiájára, ami lehetővé tette számunkra, hogy elkészítsük a CTCF/kohezin mediálta DNS hurkolódási modellünket. Ebben az úgynevezett kettős gyűrű elméletet használtuk fel, melyben a DNS hurok létrehozásában két kromatin gyűrű vesz részt. Ezt követően a csúcspont alapú fehérje pozíció meghatározást más proteinekre is kiterjesztettünk. Olyan adatbázis elkészítését tűztük ki célul, mely a lehető legtöbb azonosított transzkripciós faktor kötőhelyet tartalmazza és vizsgálni lehet a velük korrelációba hozható fehérjéket különböző sejttípusokban. Ehhez több mint 3700 humán ChIP-seq adatot töltöttünk le szekvencia adatbázisokból és a JASPAR CORE motívum adatbankot használtuk a kötőhelyek megtalálásához. Az adatokat egységes módon dolgoztuk fel, hogy azok összehasonlíthatóak legyenek. Ennek eredményeként genom szinten tudtuk azonosítani a cisztrómok genomi pozícióit 292 különböző típusú transzkripciós faktor esetében. Az azonosított kötőhelyeken vizsgálható, hogy mely faktorok fordulnak elő az adott régiókban, mely sejttípusokban és ezek milyen preferált pozícióiban helyezkednek el a motívum centrumához és egymáshoz viszonyítva. Az adatbázishoz készítettünk egy interaktív webes felületet, melyen keresztül a feldolgozott ChIP-seq adatok nem csak nyilvánosan elérhetővé és letölthetővé váltak, de a különböző megjelenítési módokban az eredményeink böngészhetőek is: http://summit.med.unideb.hu/summitdb/.hu_HU
dc.description.abstractTranscription factors (TF) are proteins, which recognize specific regions on the genome and influence the expression of corresponding genes. The role of these factors can be investigated by analysing ChIP-seq experiments. ChIP-seq is powerful technique for genome wide measurement of transcription factor binding sites (TFBSs). We detect the genomic localization of specific proteins as so called peak regions. The summit of a peak have the highest coverage of the region and are known to more-or-less coincide with the bound DNA elements. We developed a peak summit-based analysis method to identify the most likely location of the genomic contact region of the DNA-protein interactions at base-pair resolution from ChIP-seq data. We applied this method for analyzing the CTCF/cohesin complex, which holds together DNA loops. The relative positions of the constituents of the complex were determined with one-basepair estimated accuracy. Mapping the positions on a 3D model of DNA made it possible to deduce the approximate local topology of the complex that allowed us to predict how the CTCF/cohesin complex locks the DNA loops. As the positioning of the proteins was not compatible with previous models of loop closure, we proposed a plausible “double embrace” model in which the DNA loop is held together by two adjacent cohesin rings in such a way that the ring anchored by CTCF to one DNA duplex encircles the other DNA double helix and vice versa. Then we extended our analysis to other transcription factors and we created a genome wide transcription factor binding site database with combination of the JASPAR non-redundant TF binding profile set and data from bioinformatical analysis of more than 3700 ChIP-seq sequencing data downloaded from SRA database. The data are uniquely processed, which makes the result comprehensive. The result of the data processing is not only a transcription factor binding site (TFBS) database, but complete pipelines for deep ChIP-seq analysis. The pipelines automatize the data collection from SRA database, proper naming of experiments, basic ChIP-seq analysis (peak, summit prediction), binding site prediction with motif optimization (identification of real transcription factor binding sites) and distance measurement for topological data extraction. The database contains position information (distance information measured in base pair) about the surrounding ChIP-seq summits (targeted different factors from several cell lines) around each identified transcription binding sites. Our data if freely downloadable and viewable. The ChIPSummit database has an intuitive web interface with six different views (Motif, PairShift, VennDiagram, Experiment, Genome and SNP) and freely available for browsing at the following address: http://summit.med.unideb.hu/summitdb/.hu_HU
dc.description.correctorde
dc.format.extent158hu_HU
dc.identifier.urihttp://hdl.handle.net/2437/278310
dc.language.isoenhu_HU
dc.subjectChIP-seqhu_HU
dc.subjecttranscription factor
dc.subjectbinding site
dc.subjectpeak
dc.subjectsummit
dc.subjectdatabase
dc.subjecttranscription factor binding site (TFBS)
dc.subjectHigh-Throughput Sequencing (HTS)
dc.subjectCTCF
dc.subjectchromatin looping
dc.subjectcohesin
dc.subject.disciplineElméleti orvostudományokhu
dc.subject.sciencefieldOrvostudományokhu
dc.titleComprehensive analysis of human transcription factor binding sites with ChIP-seq and topological arrangements of transcription factor complexes on the DNAhu_HU
dc.title.translatedHumán transzkripciós faktorok összehasonlító elemzése ChIP-seq adatokkal és transzkripciós faktorok komplex topológiai elrendeződésének vizsgálata a DNS-enhu_HU
Fájlok
Eredeti köteg (ORIGINAL bundle)
Megjelenítve 1 - 4 (Összesen 4)
Nem elérhető
Név:
Czipa_Erik_ertekezes_titkositott.pdf
Méret:
7.97 MB
Formátum:
Adobe Portable Document Format
Leírás:
értekezés
Nem elérhető
Név:
mehivo.pdf
Méret:
195.65 KB
Formátum:
Adobe Portable Document Format
Leírás:
meghívó
Nem elérhető
Név:
Czipa_Erik_tezis_angol.pdf
Méret:
1.78 MB
Formátum:
Adobe Portable Document Format
Leírás:
angol nyelvű tézis
Nem elérhető
Név:
Czipa_Erik_tezis_magyar.pdf
Méret:
1.37 MB
Formátum:
Adobe Portable Document Format
Leírás:
magyar nyelvű tézis
Engedélyek köteg
Megjelenítve 1 - 1 (Összesen 1)
Nem elérhető
Név:
license.txt
Méret:
1.93 KB
Formátum:
Item-specific license agreed upon to submission
Leírás: