긴 비로부터 마이크로펩타이드의 번역 및 자연 선택

블로그

홈페이지홈페이지 / 블로그 / 긴 비로부터 마이크로펩타이드의 번역 및 자연 선택

Jul 01, 2023

긴 비로부터 마이크로펩타이드의 번역 및 자연 선택

Nature Communications 13권, 기사 번호: 6515(2022) 이 기사 인용 7129 액세스 7 인용 49 Altmetric Metrics 세부 정보 Long noncoding RNA(lncRNA)는 200보다 긴 전사물입니다.

Nature Communications 13권, 기사 번호: 6515(2022) 이 기사 인용

7129 액세스

7 인용

49 알트메트릭

측정항목 세부정보

긴 비코딩 RNA(lncRNA)는 200개 뉴클레오티드보다 길지만 표준 코딩 서열이 없는 전사체입니다. 분명히 펩타이드를 생산할 수 없는 lncRNA 기능은 RNA 발현, 서열 및 구조에만 의존하는 것으로 보입니다. 여기에서 우리는 Drosophila melanogaster 배아 발생 동안 Ribosomal 프로파일링을 사용하여 lncRNA 내의 작은 개방형 판독 프레임(작은 ORF)의 생체 내 번역을 철저하게 감지합니다. 우리는 lncRNA의 약 30%가 리보솜에 연결된 작은 ORF를 포함하여 100~300개의 마이크로펩타이드의 번역을 조절한다는 것을 보여줍니다. 우리는 시스트로니티(cistronicity), Kozak 서열 및 보존과 같이 번역을 선호하는 lncRNA 기능을 식별합니다. 후자의 경우, 우리는 작은 ORF 상동체를 검출하기 위한 생물정보학 파이프라인을 개발하고 진화 전반에 걸쳐 마이크로펩타이드 서열과 기능의 보존을 선호하는 자연 선택의 증거를 밝힙니다. 우리의 결과는 lncRNA 생화학적 기능의 레퍼토리를 확장하고 lncRNA가 진화 전반에 걸쳐 새로운 코딩 유전자를 생성한다는 것을 시사합니다. 대부분의 lncRNA에는 아직 번역 가능성이 알려지지 않은 작은 ORF가 포함되어 있으므로 "긴 비정규 RNA"로 이름을 바꿀 것을 제안합니다.

소형 또는 짧은 개방형 판독 프레임(smORF)은 100개 미만의 아미노산으로 구성된 단백질로 번역될 수 있는 DNA 및 RNA 서열입니다. 수십만 개의 smORF 서열이 진핵생물 게놈1,2에서 발견되며, 수천 개가 전사체, 종종 추정 비코딩 RNA3,4에 매핑될 수 있으므로 게놈의 코딩 잠재력에 대한 이해가 어려워집니다. smORF는 높은 숫자, 작은 크기 및 실험적 기능적 증거의 부재로 인해 비코딩으로 간주되어 왔지만, 수천 개는 아니더라도 수백 개의 smORF가 번역되고 smORF가 번역된다는 인식이 점점 커지고 있습니다. 펩타이드는 필수 기능을 가질 수 있으며 후생동물 전반에 걸쳐 보존될 수 있습니다8,9,10. 그러나 smORF 기능성 펩타이드의 전체 레퍼토리는 알려져 있지 않으며 smORF 서열의 게놈 및 진화적 역할도 알려져 있지 않습니다. 후생동물 smORF는 게놈 특징과 번역 수준에 따라 다양한 클래스로 분류될 수 있으며, 이러한 클래스는 서로 다른 분자 기능을 가질 수 있습니다. 후생동물 게놈에서, (a) 수백 개의 주석이 달린 짧은 코딩 DNA 서열(sCDS)은 주로 모노시스트론 mRNA에 나타나며, 막과 결합하고 발달 과정에서 표준(>100 AA) 단백질을 조절하는 경향이 있는 약 80 AA 길이의 펩타이드로 견고하게 번역됩니다8, 12 또는 생리학적9,13 역할; (b) 수천 개의 업스트림 ORF(uORF)가 표준 mRNA의 5' 리더에 위치하며, 하류에 위치한 표준 단백질의 번역을 조절할 뿐만 아니라 상호작용할 수 있는 짧은 펩타이드(~25 AA)를 생성합니다. 또는 독립적으로 기능합니다15,16; 마지막으로, (c) 긴 비코딩 RNA(lncRNA)는 평균 20개의 코돈 길이를 갖는 수만 개의 smORF(lncORF)를 포함합니다. lncRNA는 200bp보다 길지만 정식 주석이 달린 ORF가 없으므로 비코딩 기능을 갖는 것으로 가정됩니다. 실제로, 몇몇 lncRNA는 염색질 인자부터 마이크로 RNA 생산을 통한 mRNA 번역 조절자에 이르기까지 RNA 서열과 구조에 의해서만 매개되는 기능을 가지고 있습니다. 그러나 수백 개의 lncRNA(각각 평균 ​​20개의 lncORF를 포함)는 폴리아데닐화되어 세포질에서 발견되며 리보솜과 결합할 수 있어 마이크로펩타이드의 번역 및 생산 가능성을 나타냅니다. 기능성 마이크로펩타이드의 생산은 참고문헌에서 검토된 일부 사례에서 입증되었습니다. 19,20,21,22 그러나 마이크로펩티드로의 번역이 lncRNA 생물학의 일반적인 측면이 어느 정도인지, 그리고 더 나아가 이러한 펩티드 중 얼마나 많은 생물학적 기능이 있는지는 불분명합니다.

smORF는 또 다른 초기 분야인 새로운 유전자 진화와 흥미로운 중첩을 제공합니다. 오랫동안, 수백 개는 아니더라도 수십 개의 종 특정("고아") 유전자의 존재가 주목되었습니다23,24,25. 이는 마치 이러한 유전자가 기존 유전자의 돌연변이나 복제로 인해 나타나는 것이 아니라 이전에 비암호화 서열에서 새롭게 나타난 것과 같습니다. 그러나 새로운 유전자 개념은 식별을 둘러싼 문제와 논란에 휩싸여26,27,28 사실상 증거의 부재(상동성)가 부재의 증거로 간주되었습니다. 또한 현재 새로운 유전자 생성과 관련된 메커니즘에 대한 합의가 없습니다. 새로운 유전자(de novo gene)는 불활성 DNA와 전체 코딩 표준 단백질 사이의 중간 정도의 특징을 지닌 서열인 원형 유전자(proto-gene)에서 발생한다고 제안되어 왔습니다. 이러한 중간 특징이나 새로운 유전자로의 전환과 관련된 메커니즘은 입증되지 않았지만, lncRNA와 smORF가 새로운 유전자의 예를 제공할 수 있으며4,5,11,30 번역은 그 과정에서 중요한 사건입니다11.

 1 in either replica); (b) ribosome binding (Riboseq signal RPKMFP > 1 in both replicas); and (c) framing in ORF-aligned 32nt RPFs (tri-nucleotide periodicity passing a binomial test p < 0.01 in either replica, (Supplementary Fig. 1a). We detected 124 translated lncORFs within the 866 lncRNAs transcribed during Drosophila melanogaster embryogenesis. This number is in contrast to the 1258 translated uORFs found using a similar strategy5, and can be explained by the low RPKMRNA and RPKMFP signal in lncORFs when compared to other ORF classes (Fig. 1b)./p> 1 in both replicas of a given stage) but no evidence of framing in any sample (Fig. 1e). These lncORFs are comparable to the previously described ‘ribo-bound-only’ uORFs5, and could associate with ribosomes for reasons other than productive translation./p> 1) lack ribosomal association (RPKMFP > 1). Surprisingly, most lncORF ribosome-binding and translation events during embryogenesis are contained within 30% of all transcribed lncRNAs (602 lncORFs in 264 lncRNAs, Fig. 3a). The clustering of ribo-bound lncORFs in this 30% of lncRNAs is significantly different to what is expected at random (Fig. 3b). This suggests that a subset of transcribed lncRNAs is more prone to ribosomal binding than others. Strikingly, 77% of lncRNAs containing lncORFs with robust translation also contain other lncORFs with either ribosomal-binding and/or limited translation. Similarly, 63% of lncORFs with limited translation share their lncRNA with other lncORFs that display either ribosome-binding or robust translation (see below, Fig. 3e). Finally, there is a significant correlation between the number of ribo-bound-only (unproductive) and other lncORFs in cis displaying translation signal (limited or robust) (Pearson r = 0.5998, p < 0.0001) (Fig. 3c)./p> 1, orange), compared with expectations as given by a Poisson model (blue). Values to the right of their intersection (dotted line) show the enrichment of cis-related binding. c Correlation between ribosome-bound-only and translated lncORFs in the same lncRNA. Pearson’s r = 0.5998. d lncRNA length does not explain clustering of ribosomal binding and translation events to particular lncRNAs. Violin plots of annotated lncRNA transcript lengths (nt) in function of the translation signal detected within their lncORFs. N = 866 transcribed lncRNAs (see panel 3a). “*” denote p-values <0.05. p = 0.0133 for “reproducible-variable” comparison; p = 0.0183 for “reproducible-ribo-only” comparison; p = 0.0198 for “reproducible-transcribed” comparison. Mann–Whitney tests, two-tailed. e CR30055 is an example of a lncRNA with multiple ORFs: ORF2 appears as robustly translated by Riboseq, and ORF2-FLAG shows expression in S2 cells, whereas ORF4, appears as ribo-bound-only, and shows no expression in S2 cells, despite sharing the same transcript as ORF2. f Polysomal RNA RPKM values of lncRNAs from low polysomes in S2 cells (2–4 ribosomes per lncRNA, top) and Eggs (2–6, bottom) are enhanced for embryo-translated lncRNAs, suggesting that translated lncRNAs have an intrinsic higher affinity for ribosomes./p>50%, Fig. 5b, c, Supplementary Fig. 5a). Of these, 153 show homologues in more than one species (Fig. 5b. These results suggest that GENOR reaches to and beyond standard methods in detecting homologies for small open-reading frames./p> 1 in one of two replicates (transcribed), as well as Poly-Ribo-Seq RPKM > 1 in both biological replicates (Ribo-bound) and framing in at least one RPF length (framed). If the last condition was not met, the ORF was considered Ribo-Bound-only, with no productive translation observed. In the event of transcription being the only signal in a given ORF, we defined it as “Transcribed-only”. This allowed for the definition of sets of Transcribed, Ribo-bound as well as Translated ORFs per stage. Within the Translated set, ORFs showing framing in one replica only were considered ‘limited’ and those framed in both replicas as ‘robust’./p>0.5 in the PAM 250 matrix) were given a weight of “70”, whereas residues with weak similarities (‘.’) were given a relative weight of 30. Per alignment, scores were added across positions, and divided by total query length to obtain a GENOR score for the hit./p>1 indicates that overlap is higher than that expected by chance, whereas a representation factor <1 indicates less overlap than expected./p>