Logotipo de Zephyrnet

La unión selectiva de retrotransposones por ZFP352 facilita la disolución oportuna de la red de totipotencia - Nature Communications

Fecha:

Cultivo celular y líneas celulares.

Las células HEK293T (Pricella, CL-0005) se cultivaron en platos recubiertos con gelatina al 0.12 % con glucosa alta en DMEM (HyClone, SH30243.01) complementado con FBS al 10 % (Gibco, 10270-106). Se cultivaron células E14 (Cell Search System, E14tg2a) en DMEM con alto contenido de glucosa (Gibco, 11965-084) con 15 % de FBS (Gibco, 16000-044), 100X NEAA (Gibco, 11140050), 100X L-Glutamina (Gibco, 25030081 ), β-mercaptoetanol 1000X (Gibco, 21985023), LIF casero (dilución 10,000 14X) en placa precubierta de gelatina. El medio se refrescó diariamente. Las células E0.05 se pasaron por incubación con tripsina al 0203 % (Beyotime, C3) durante 37 min a 352 °C. La línea mESC inducible ZFP57.1 se realizó mediante la integración lentiviral del pCWXNUMX-zfp352 plásmido de expresión. zfp352 La secuencia codificante se clonó bajo el promotor inducible por TET en el plásmido pCW57.1. Las células se comprobaron de forma rutinaria en busca de contaminación por micoplasma.

Transfección y transducción

La transfección se realizó utilizando Lipofectamine 2000 (Life Technologies, 11668027) según el protocolo. La mezcla de transfección se añadió a la placa precubierta de gelatina antes de sembrar las células. Para la producción de lentivirus, las células HEK293T se cultivaron hasta un 70 % de confluencia. El plásmido de transferencia, pxPAX2 y VSVG se transfectaron en células HEK293T con PEI (Polysciences, 24765-1). El sobrenadante se recogió entre 48 y 72 h después, y el virus producido se precipitó utilizando una solución de concentración de virus 5X (Origene, TR30026), se resuspendió en PBS y se dividió en alícuotas antes de almacenarlo a -80 °C. Para infectar las células con lentivirus, se añadió virus al medio con 4 μg/ml de polibreno durante 24 h. El medio se actualizó el segundo día para permitir los ensayos posteriores.

Extracción de ARN y RT-qPCR

El ARN total se extrajo mediante RNAios Plus (Takara, 9109). El ARN se transcribió inversamente en ADNc mediante HiScript II Q RT SuperMix (Vazyme, R223-01). La qPCR se realizó con ChamQ SYBR qPCR Master Mix (Vazyme, Q311-03) con el sistema Roche LightCycler® 480 (LC480).

Ensayo de expresión de luciferasa

Las secuencias SINE_B1 y la secuencia MT2_Mm se clonaron en el plásmido informador de luciferasa pGL4.23 que contenía el minipromotor SV40, o el plásmido informador de luciferasa psi-CHECK-2 (Promega, C8021). Los plásmidos indicadores de luciferasa se transfectaron en células HEK293T junto con zfp352 or Dux sobreexpresión de plásmidos. Los cambios en la expresión de luciferasa se detectaron mediante RT-qPCR. La actividad de luciferasa también se midió con el sistema de ensayo de luciferasa dual (Promega, E1910) y se analizó en un lector de placas Synergy2 (BioTek).

Coinmunoprecipitación

Las células se lisaron en tampón Endo-IP con cóctel inhibidor de proteasa (Biotool, B14001) en hielo durante 30 min y el lisado se centrifugó a 4 °C durante 25 min para eliminar los precipitados. Se incubaron 500 μg de proteína total con 5 μg de anticuerpos IgG o HA de conejo (Sigma, H3663) o anticuerpos Flag (Sigma, F1804) a 4 °C durante la noche con rotación. La mezcla de lisado y anticuerpo se incubó con 30 μl de proteína G Dynabeads (Thermo Fisher Scientific, 10003D) durante 2 h a temperatura ambiente con rotación. Las perlas se lavaron con tampón de lisis y se eluyeron. El eluyente se analizó por western blotting. Para detectar la ubiquitinación de proteínas, se incubaron 500 μg de proteína total con 5 μg de anticuerpos IgG o ZSCAN4 de conejo (Millipore, AB3430) a 4 °C durante la noche con rotación. La mezcla de lisado y anticuerpo se incubaron con 30 μl de proteína G Dynabeads (Thermo Fisher Scientific, 10003D) durante 2 h a temperatura ambiente con rotación. El eluyente se transfirió más tarde con anticuerpo de ubiquitina (CST, #3936).

Western blotting

El lisado celular en tampón Endo-IP con cóctel de inhibidores de proteasa o muestras eluidas con Co-IP se desnaturalizó a 95 °C y se mantuvo en hielo. Las muestras de proteína se resolvieron usando SDS-PAGE y se transfirieron a una membrana de difluoruro de polivinilideno (PVDF) (Sigma-Aldrich, 3010040001) usando un sistema de transferencia de tanque húmedo. La membrana de PVDF se bloqueó en leche descremada al 10 % en PBST durante 1 h y se incubó el anticuerpo primario en tampón de bloqueo a 4 °C durante la noche y, posteriormente, el anticuerpo secundario se conjugó con HRP (Genescrip, A00098) diluido 1:5000. La membrana se visualizó utilizando el sistema Azure C300. El anticuerpo primario utilizado incluyó anticuerpos contra GAPDH (Abclonal, AC033), HA (Sigma, H3663), Flag (Sigma, F1804), ZSCAN4 (Millipore, AB3430), ubiquitina (CST, #3936) y ZFP352, y todos los anticuerpos primarios fueron diluido a 1:2000.

Citometría de flujo

Las mESC se digirieron en células individuales con tripsina al 0.05 % a 37 °C y se fijaron con PFA al 4 % durante 30 min. Una vez resuspendidas en PBS preenfriado, las suspensiones se filtraron a través de un filtro de 40 µm y se analizaron en BD LSRFortessaTM Analizador de células. Los datos de FACS se analizaron con FlowJo X V10, con estrategias de activación ilustradas en la figura complementaria. 7.

CRISPRi y CRISPRa

Para el sistema CRISRi y CRISPRa, se usaron sgRNA diseñados a partir de secuencias de consenso MT2_Mm en Dfam y se clonaron en vectores dCAS9-VP160 y dCAS9-KRAB modificados de Addgene #48240. Las secuencias de sgRNA utilizadas en este estudio fueron:

CAGCTGTGAATGGAAGTCCA

ATTATTGATGACTTACAGT

CACCAGTGACCCTTATCTGG

El plásmido dCAS9-VP160 o dCAS9-KRAB con sgRNA se transdujo en células E14 y se usaron vectores vacíos como control.

Recuperación de embriones y microinyección

Los ratones hembra ICR de 8 a 10 semanas de edad se compraron en Shanghai SLAC Laboratory Animal Co., Ltd. Todos los ratones se alojaron en un entorno SPF con un ciclo de luz y oscuridad de 12 h y tenían una temperatura de 22 a 24 °. C con 50–60% de humedad. Ratones hembra ICR (8-12 semanas de edad) fueron súper ovulados mediante inyección ip de 10 UI de gonadotropina sérica de yegua preñada (PMSG, CEN'S, Hangzhou, China) y 48 h más tarde, 10 UI de gonadotropina coriónica humana (hCG, CEN'S, Hangzhou, China ). Para los embriones producidos in vivo, las hembras se aparearon con ratones macho ICR (de 10 a 18 semanas de edad). Los cigotos se recogieron de oviductos disecados a 0.5 dpc. y poner en medio KSOM (ARK Resource Co., Ltd.). La Universidad de Zhejiang (China) proporcionó la guía para el protocolo de investigación con animales con el número de aprobación ética como ZJU20230182.

Para las inyecciones de siRNA, los cigotos recolectados in vivo se asignaron aleatoriamente en cuatro grupos: sizfp352, siMERVL, siNC (control codificado) y control no inyectado. Las secuencias de siRNA fueron como se muestra a continuación.

sizfp352: CCAUUUGAGAACACUUCUUUTT; GCUCCAUAUGUGGGUGAAUTT; GGUUCUACGCUUGUCCCCUUTT

siMERVL: GAAGAUAUUGCCUUUCACCAGCUCUA

sinC: UUCUCCGAACGUGUCACGUTT

60 μM de siRNA y se inyectaron en el citoplasma de los cigotos utilizando un capilar de vidrio de microinyección (VIDRIO DE BOROSILICATO, ARTÍCULO n.º: BF100-78-15). Los embriones inyectados se cultivaron en medio KSOM bajo aceite mineral en placas de Petri de 35 mm (Corning Life Sciences, 430165) en la incubadora multigás humidificada (5% O2, 6% CO2, y 89% N2) a 37 °C. Se registró el desarrollo embrionario durante un total de cuatro días después de la microinyección.

qPCR en tiempo real y RNA-seq para embriones de ratón

Se aisló el ARN total y se combinó de 10 embriones. La conversión de cDNA se realizó como se describió anteriormente.57. Los embriones se obtuvieron y se colocaron en un tubo de PCR de pared delgada de 0.2 ml que contenía 2 µl de tampón de lisis celular (con 5 % de inhibidor de RNasa y 95 % de Triton X-100), 1 µl de cebador oligo-dT 10 µM y 1 µl de Mezcla de dNTP (10 mM cada uno; Fermentas, R0192). La mezcla se agitó rápidamente y luego se redujo a 700 × g durante 10 s a temperatura ambiente) e inmediatamente se transfirió en hielo. Las muestras se incubaron a 72 °C durante 3 min e inmediatamente se volvieron a colocar en hielo. 5.7 µl de la mezcla RT que contiene transcriptasa inversa SuperScript II (Invitrogen, n.º de cat. 18064-014), inhibidor de ARNasa (10U), tampón de primera cadena Superscript II 5X, DTT 100 mM (Invitrogen, 18064-014), 5 M Betaína (BioUltra ≥99.0 %; Sigma-Aldrich, 61962), MgCl 1 M2, TSO 100 µM se mezclaron pipeteando suavemente hacia arriba y hacia abajo. La muestra se incubó a 42 °C para la transcripción inversa y luego se amplificó con la reacción de primera hebra KAPA HiFi HotStart ReadyMix (KAPA Biosystems, KK2601). Los niveles relativos de expresión de zfp352 y MERVL se midieron por RT-qPCR y se normalizaron a gapdh. El cDNA se usó para la construcción de bibliotecas con Vazyme TruePrep DNA Library Prep Kit V2 para el kit Illumina (TD503-01) y, posteriormente, se sometió a la secuenciación de la plataforma Illumina con una profundidad de 20 M de lecturas por muestra. Se pueden encontrar más detalles sobre la construcción de bibliotecas en su manual de usuario.

ensayo ELISA

La sonda de ADN SINE_B1 se sintetizó mediante PCR utilizando un cebador biotinilado, diluido en TBS-T al 0.1 % y recubierto en placas de estreptavidina (Thermo Scientific, 15500). Los pocillos recubiertos con sonda se lavaron y bloquearon antes de cargarlos con diferentes cantidades de extracto de proteína de células HEK293T que sobreexpresan zfp352 or zfp352+Dux juntos. El anticuerpo primario contra HA en una proporción de dilución de 1:2000 y el anticuerpo secundario anti-ratón junto con HRP en una proporción de dilución de 1:5000 se usaron para detectar HA-ZFP352 unido a la sonda SINE_B1. Los pocillos se incubaron adicionalmente con solución de OPD (Sangon Biotech A610348) en la oscuridad durante 30 minutos antes de agregar la solución de parada. La emisión se midió a 492 nm con 650 nm como longitud de onda de referencia.

Repetir anotación de elementos

Descargamos las pistas de mm10 de RepeatMasker (rmsk) del navegador del genoma de UCSC (https://genome.ucsc.edu/). Además, filtramos los TE con indeles grandes, que son aquellos con una longitud un 20 % más larga o más corta que sus secuencias de consenso (anotadas en Repbase). Luego generamos un nuevo archivo de anotación de genes en formato GTF mediante la combinación de TE filtrados con la anotación de genes Ensembl (versión GRCm38.99). El archivo GTF combinado se usó posteriormente en el análisis RNA-seq o Chip-seq.

Análisis de RNA-seq de una sola célula

Reprocesamiento de datos de scRNA-seq de desarrollo embrionario temprano de ratón

Para cuantificar la expresión de TE durante el desarrollo embrionario temprano, reprocesamos datos de scRNA-seq (SMART-Seq) de46 como se describió previamente58. Brevemente, los archivos sin procesar se descargaron de la base de datos de lecturas cortas (SRA) (acceso: SRA072494) y se asignaron al genoma de referencia del ratón GRCm38.99 con STAR (v2.7.0e)59. Se conservaron las lecturas asignadas a no más de 2000 loci y solo se mantuvo el mejor resultado (–alignEndsType EndToEnd –winAnchorMultimapmax 2000 –outFilterMultimapNmax 2000 –outSAMprimaryFlag AllBestScore –outSAMmultNmax 1). Con tal configuración, se mantendrán todas las lecturas mapeadas de forma única. Para lecturas con múltiples mejores aciertos equivalentes de puntajes equivalentes, solo se conservará uno de los aciertos. Luego usamos featureCounts (v2.0.0)60 para cuantificar el número de lecturas asignadas tanto al gen como al TE con el parámetro (-s 0 –fracción -M -C).

La matriz de recuento generada por featureCounts se cargó en Seurat (v3.0.0)61 para el procesamiento posterior, incluido el control de calidad básico, la normalización y la agrupación. Mantuvimos las células que expresaban más de 2000 características genéticas y filtramos las células con un 50 % de sus ARN derivados de mitocondrias. Luego normalizamos los recuentos sin procesar a recuentos por 10k lecturas e identificamos los 3000 genes más variables con la función Seurat "NormalizeData", "FindVariableFeatures" y el método de selección "vst". Los genes variables se escalaron y utilizaron como entrada para calcular los componentes principales (PC). Se seleccionaron las 50 mejores PC para calcular la Proyección y aproximación de colector uniforme (UMAP) con la función Seurat "RunUMAP" usando la configuración predeterminada. La información del tipo de celda se adoptó de la ref. 46. Los genes marcadores específicos de la etapa se identificaron con la función "FindMarkers" de Seurat y los parámetros: "min.pct = 0.2, logfc.threshold = 1, test.use = "wilcox", max.cells.per.ident = 20".

La lista de genes marcadores del tipo de célula (etapa embrionaria de la célula) se definió de acuerdo con el archivo de anotación de la ref. 46. Los marcadores se identificaron utilizando la función FindMarker en Seurat. CF medio > 2 y P Se usaron valores < 0.05 como punto de corte para definir los marcadores finales, y la lista de genes marcadores se usó para el siguiente análisis.

Análisis integrador del proceso de entrada y salida de 2CLC utilizando datos scRNA-seq

Para el análisis integrador del proceso de entrada y salida de 2CLC, descargamos archivos fastq sin procesar de un estudio de entrada 2CLC inducido por Dux sobreexpresión15 (GEO: GSE121459) y de un estudio de salida de 2CLC inducido por DUX45 (GEO: GSE133234). Dado que estos conjuntos de datos se generan a partir de la plataforma 10X Genomics, primero los procesamos con STARsolo con los siguientes parámetros: (–winAnchorMultimapNmax 2000 –outFilterMultimapNmax 2000 –outSAMprimaryFlag AllBestScore –outSAMmultNmax 1 –limitOutSJoneRead 10000 –limitOutSJcollapsed 3000000 –outSAMattributes NH HI nM AS CR UR CB UB GX GN sS sQ sM –soloType CB_UMI_Simple –soloCBwhitelist 737K-abril-2014_rc.txt –soloCBlen 14 –soloUMIstart 15 –soloUMIlen 8 –soloBarcodeReadLength 0 –soloStrand Forward –soloFeatures Gene GeneFull SJ). Además, el GTF combinado, en el que se ha agregado la anotación TE, se utilizó para cuantificar la abundancia de TE. Usando tales configuraciones, identificamos células expresadas MT2_Mm u otros TE.

Utilizando la matriz de recuento generada por STARSolo, se realizó un análisis posterior en Seurat. Brevemente, excluimos las células con (1) menos de 400 UMI/célula y (2) menos de 500 o más de 8000 genes detectados, y con más del 30 % de UMI derivados de ARN mitocondrial. Los recuentos de UMI sin procesar se normalizaron a recuentos por 10k UMI y se transformaron logarítmicamente. Los 3000 genes más variables se identificaron con la función de Seurat "FindVariableFeatures" y el método de selección de variables "vst" para ambos conjuntos de datos, respectivamente. Luego aplicamos las funciones "FindIntegrationAnchors" e "IntegrateData" a las 20 CCA principales para integrar los dos conjuntos de datos. UMAP de conjuntos de datos integrados se calculó mediante la función "RunUMAP" con la configuración "n.neighbors = 5".

RNA-seq y análisis de datos

La biblioteca se construyó con Truseq RNA Sample Prep Kit v2 (Illumina, RS-122-2001) antes de someterse a la secuenciación de la plataforma Illumina con una profundidad de 20 M de lecturas por muestra. FastQC (v0.11.8) realizó el control de calidad de las lecturas sin procesar.62. Los primeros 10 pb de ambas lecturas emparejadas fueron recortados por cutadapt (v2.9)63. ESTRELLA (v2.7.0e)59 se utilizó para alinear las lecturas con el genoma de referencia del ratón GRCm38.99 (https://ftp.ensembl.org/pub/release-99/fasta/mus_musculus/dna/). Se conservaron las lecturas con no más de 2000 loci asignados y solo se mantuvo el mejor resultado (–alignEndsType EndToEnd –winAnchorMultimapmax 2000 –outFilterMultimapNmax 2000 –outSAMprimaryFlag AllBestScore –outSAMmultNmax). La cuantificación tanto para el gen como para el TE se calculó mediante FeatureCounts v2.0.060 con parámetro utilizando GRCm38.99 archivo GTF (-s 0 –fraction -M –C, https://ftp.ensembl.org/pub/release-99/gtf/mus_musculus/).

Los genes expresados ​​diferencialmente (DEG) y los elementos transponibles (DE-TE) fueron generados por el paquete R edgeR (v3.30.3)64. Solo se conservaron las características con un TPM medio superior a 1 en el grupo de control o de tratamiento. Los DEG se definieron como cambio de pliegue > 2 y ajustado P valor < 0.05. El enriquecimiento del término GO para DEG se realizó con el paquete R clusterProfiler (v3.12.0)65 (ont = 'TODO', pAdjustMethod = 'BH', pvalueCutoff = 0.05, qvalueCutoff = 0.05).

Las listas de genes marcadores de agrupamiento se definieron con genes que coinciden con el siguiente criterio. En primer lugar, los DEG se filtraron en varios puntos de tiempo diferentes después de la sobreexpresión de Dux, y luego los DEG con el TPM más alto en comparación con otros puntos de tiempo diferentes y también más altos que el TPM promedio de los otros puntos de tiempo se definieron como Dux punto de tiempo de sobreexpresión que agrupa genes específicos. El análisis de superposición se realizó con el paquete R GeneOverlap (v1.30.0, GitHub - shenlab-sinai/GeneOverlap: paquete R para probar y visualizar superposiciones de listas de genes).

ChIP-seq y análisis de datos

Las células se recogieron y se fijaron con formaldehído al 1 % (Sigma, 47608-250ML-F) durante 10 min a temperatura ambiente con rotación. El enfriamiento se realizó con glicina 0.14 M a temperatura ambiente durante 10 min. Las células se lisaron con tampón de lisis ChIP (Tris-HCl 10 mM (pH 8.0), Triton X-0.25 al 100 %, EDTA 10 mM, NaCl 100 mM, cóctel inhibidor de proteasa). El ADN genómico se sometió a ultrasonidos en fragmentos cortos con un tamaño medio de 500 pb. El ADN fragmentado se incubó con 3 μg de anticuerpo HA (CST, 61099) durante la noche a 4 °C. Posteriormente, la mezcla se incubó con 30 μl de Dynabeads de proteína G durante 2 h a temperatura ambiente con rotación. El ADN se eluyó en tampón de elución (Tris-HCl 50 mM (pH 8.0), EDTA 1 mM, SDS al 1 %) y se trató con proteinasa K a 60 °C durante la noche. El ADN se purificó con el Mini kit de extracción de ADN FastPure (Vazyme Biotech Co. Ltd, DC301) y se sometió a qPCR o secuenciación Illumina.

Utilizamos canalizaciones de bioinformática seleccionadas por la comunidad "nf-core/chipseq" (v1.1.0)66 para el análisis de datos de ChIP-seq. Tomamos la configuración predeterminada de la canalización chipseq, pero agregamos la opción "mantener varios mapas" para retener múltiples lecturas de aciertos para que se puedan identificar los picos en la región TE. En resumen, FastQC (v0.11.8) filtró por primera vez los archivos fastq sin formato.62. Recortar en abundancia (v0.5.0, https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/) se utilizó para recortar adaptadores. Las lecturas de alta calidad restantes se asignaron al genoma de referencia del ratón descargado de Ensembl (GRCm38.99) por BWA (v0.7.17)67. Los duplicados de PCR fueron marcados por PICARD (v2.19.0, http://broadinstitute.github.io/picard/) y eliminado por SAMtools (v1.9)68. Luego, MACS2 (v2.1.2)69 se utilizó para llamar a los picos. Los picos estrechos con valor q (FDR mínimo) < 0.05 se mantuvieron como picos finales.

Las pistas de Bigwig se generaron usando Deeptools (v3.4.3)70 normalizando a RPKM usando binsize de 10 pb. Las señales de ChIP-seq sobre las regiones genómicas fueron trazadas por Deeptools (v3.4.3)70. Para la anotación de TE de la región de pico, la anotación de diferentes familias/clases de TE sobre las regiones de pico (Observado) se obtuvo mediante la función annotatePeaks.pl en Homer (v4.7)71 utilizando el archivo de anotación TE.

Dux Los datos sin procesar de ChIP-seq de sobreexpresión fueron de GEO: GSE955178. El mapa de calor de ChIP-seq se trazó utilizando los comandos de computaciónMatrix y plotHeatmap de DeepTools (v3.4.3)70. Se utilizó el método de agrupamiento de K-medias para dividir las regiones en tres categorías distintas. Los grupos resultantes son la región de unión conjunta de ZFP352 y DUX (±500 pb), la región de unión única de DUX sin ZFP352 y la región de unión única de ZFP352 sin DUX. Las imágenes del navegador Genome de las regiones pico y la cobertura de lectura se compusieron utilizando Integrative Genomics Viewer (IGV). Los picos se anotaron contra mm10 con la biblioteca de anotaciones de UCSC.

Las ubicaciones de TE esperadas que rodean los picos de ZFP352 ChIP se identificaron contando el número de copias de la subfamilia TE respectiva en las regiones de unión de la región del pico ZFP352 ChIP, y los números de TE esperados se calcularon asumiendo una distribución aleatoria de la subfamilia TE en la respectiva región genómica. También se tuvo en cuenta la longitud media de cada subfamilia de TE. Los genes específicos de SINE_B1 y los genes específicos de B1_Mus2, B1_Mus1, B1_Mm se contaron utilizando BEDtools (v2.29.2)72,73 comando de ventana en una ventana de ±5 kb desde las cumbres de los picos. Los genes específicos de MT2_Mm se contaron usando el comando de ventana BEDtools en una ventana de ± 50 kb desde las cumbres de los picos debido a que el número total de copias de SINE_B1 era mucho mayor que el número de MT2_Mm, por lo que se utilizó un criterio de distancia diferente.

ATAC-seq y análisis de datos

ATAC-seq se realizó como se describió anteriormente74 con el kit de preparación de bibliotecas de ADN MagicSeq Tn5 para Illumina (Magic-Bio, M3141). El sedimento de mESC se trató con transposasa a 37 °C durante 30 min, se purificó con el kit de purificación de PCR MinElute (QIAGEN, 28006) y se amplificó con la mezcla maestra de PCR 1xNEBnext (NEB, M0541S) con los cebadores 1 y 2 de PCR Nextera personalizados. Tras la purificación con MinElute Kit de purificación PCR (QIAGEN, 28006). Las bibliotecas se sometieron a secuenciación Nova pair-end de 150 pb.

Para el análisis de datos ATAC-seq, el control de calidad se realizó mediante FastQC v0.11.862. El adaptador Tn5 (AGATGTGTATAAGAGACAG) fue recortado por cutadapt v2.963. ESTRELLA v2.7.0e59 se utilizó para la alineación con el genoma de referencia humano GRCm38.99. Se retuvieron lecturas con un máximo de 1000 sitios mapeados múltiples y no más de 3 discrepancias, y solo se mantuvo el mejor resultado (–outFilterMultimapNmax 1000, –outFilterMismatchNmax 3, –outSAMmultNmax 1). Al crear un índice STAR sin un archivo de formato de característica general y sin permitir la longitud del intrón (–alignIntronMax 1), se descuidó la unión de empalme. Los duplicados de PCR fueron eliminados por Samtools v1.268 función rmdup.

Los picos de ATAC-seq se definieron utilizando MACS2 v2.2.7.175 función callpeaks con parámetros predeterminados. Las pistas de Bigwig se generaron usando deeptools v3.4.370 normalizando a RPKM usando binsize de 10 pb. Las señales ATAC-seq sobre las regiones genómicas fueron trazadas por deeptools v3.2.170.

Análisis de motivos

Las secuencias SINE_B352 unidas a ZFP1 eran picos SINE_B1/Alu que tienen picos ZFP352 ChIP-seq en una región de ±5 kb (n = 4141). ZFP352 enlazado B1_Mus2 (n = 2150), ZFP352 enlazado B1_Mus1 (n = 780) y ZFP352 enlazado B1_Mm (n = 1211) también se obtuvieron con el mismo método. Las secuencias de MT352_Mm unidas a ZFP2 eran picos de MT2_Mm que tienen picos de ZFP352 ChIP-seq en una región de ±50 kb (n = 1896). El análisis de motivos se realizó mediante la función Motif Discovery del sitio web de MEME utilizando archivos de cama SINE_B352 vinculados a ZFP1 y MT352_Mm vinculados a ZFP2. El análisis de hexámeros se realizó utilizando secuencias SINE_B352 unidas a ZFP1 o MT352_Mm unidas a ZFP2. La información de las secuencias de SINE_B352 vinculado a ZFP1 o MT352_Mm vinculado a ZFP2 se generó mediante el comando getfasta de BEDtools (v2.29.2)72,73 con su respectiva ficha de cama, y ​​se contaron los hexámeros usando Jellyfish (v2.3.0)76 Se utilizó el comando de conteo y el comando de volcado de medusas para obtener las estadísticas de los resultados del conteo de hexámeros. La distribución porcentual de cada hexámero en cada subfamilia de TE unida a ZFP352 se calculó como el porcentaje de este hexámero entre todos los hexámeros aleatorios de las copias de la subfamilia de retrotransposones y se representaron juntos en el mapa de calor.

Visualización de datos

Los mapas de calor de los genes seleccionados se trazaron utilizando el paquete R pheatmap (v1.0.12) y ComplexHeatmap (v2.0.0)77.

análisis RAD

El análisis RAD se realizó mediante la herramienta web: https://labw.org/rad/docs47. Los DEG de Dux sobreexpresión y zfp352 sobreexpresión RNA-seq se seleccionaron con los siguientes criterios: genes regulados al alza con cambio de pliegue [FC]> 1.5 y ajustado P valor < 0.05; genes regulados a la baja con cambio de pliegue [FC] <-1.5 y ajustado P valor < 0.05. Las regiones de entrada incluyen los picos enlazados DUX o ZFP352 revelados a partir de las coordenadas de ubicación de la subfamilia ChIP-seq, MT2_Mm y SINE_B1 en el genoma GRCm38 (mm10). Para las opciones de envío, se seleccionó "GRCm38(mm10)" como genoma de referencia, "1000, 500, 200, 100, 50, 25, 20, 15, 10, 5, 0 kb" como la distancia de extensión máxima personalizada. Las puntuaciones de enriquecimiento se calcularon observando las frecuencias de distribución esperadas. "Esperado" representa el promedio genómico suponiendo una distribución aleatoria. Se realizó una prueba hipergeométrica unilateral para evaluar la significación estadística y la P valor se presentaron como sigue: *P < 0.05, **P <0.01, ***P < 0.001, ****P <0.0001.

Estadística y reproducibilidad

Para todos los datos presentados en las figuras, excepto los datos de la secuenciación de próxima generación, los experimentos se realizaron al menos dos veces, cada vez con réplicas y el análisis estadístico fue como se describe en las leyendas de las figuras respectivas.

Resumen de informes

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de la cartera de naturaleza vinculado a este artículo.

punto_img

Información más reciente

café vc

café vc

punto_img