Doris 可以創(chuàng)建外部表。創(chuàng)建完成后,可以通過 SELECT 語(yǔ)句直接查詢外部表的數(shù)據(jù),也可以通過 INSERT INTO SELECT 的方式導(dǎo)入外部表的數(shù)據(jù)。
Doris 外部表目前支持的數(shù)據(jù)源包括:
MySQL
Oracle
PostgreSQL
SQLServer
Hive
Iceberg
ElasticSearch
在 doris fe 和 be 目錄下創(chuàng)建 jdbc_drivers 目錄,將 doris 外部表支持的數(shù)據(jù)源 jar,放到此目錄下;
官方支持的其它 type : https://doris.apache.org/zh-CN/docs/sql-manual/sql-reference/Data-Definition-Statements/Create/CREATE-RESOURCE?_highlight=resource
https://zhuanlan.zhihu.com/p/591172702
1. 創(chuàng)建 JDBC Resource
drop RESOURCE gp_resource;
CREATE RESOURCE gp_resource PROPERTIES (
"type"="jdbc",
"user"="root",
"password"="root",
"jdbc_url"="jdbc:mysql://cdh003:3306/test?useSSL=false",
"driver_url"="file:///opt/apache-doris-2.0.3-bin-x64/be/jdbc_drivers/mysql-connector-java-8.0.21.jar",
"driver_class"="com.mysql.cj.jdbc.Driver"
);
2. 創(chuàng)建外部表
drop TABLE test.table_mysql;
CREATE TABLE test.table_mysql
(
`s_id` varchar(20) ,
`c_id` varchar(20) ,
`s_score` int(3)
)
ENGINE=JDBC
PROPERTIES
(
"resource"="gp_resource",
"table"="score",
"table_type"="mysql"
);
select * from table_mysql;
參考 : https://blog.csdn.net/m0_52735414/article/details/128847022
官方支持的其它 ODBC : https://doris.apache.org/zh-CN/docs/advanced/resource?_highlight=odbc#odbc
linux odbc 安裝
1. linux 上提前安裝好 ODBC,及相關(guān)數(shù)據(jù)庫(kù)對(duì)應(yīng)的 odbc 驅(qū)動(dòng);
所有的 BE 節(jié)點(diǎn)都安裝上相同的Driver,并且安裝路徑相同,同時(shí)有相同的 ${DORIS_HOME}/be/conf/odbcinst.ini 的配置。
2. 在 BE 節(jié)點(diǎn)的 conf/odbcinst.ini,添加注冊(cè)的的ODBC 驅(qū)動(dòng)([MySQL ODBC 5.3.11]這部分)。
在文件 odbcinst.ini 末尾新增以下內(nèi)容:
# Driver from the mysql-connector-odbc package
# Setup from the unixODBC package
[MySQL ODBC 5.3.11]
Description=ODBC for MySQL
Driver=/usr/lib64/libmyodbc5w.so.
FileUsage=1
3. 在Doris中 建Resource
CREATE EXTERNAL RESOURCE `mysql_5_3_11` PROPERTIES (
"host"="hadoop1",
"port"="3306",
"user"="root",
"password"="000000",
"database"="test",
"table"="test_cdc",
"driver"="MySQL ODBC 5.3.11", -- 名稱要和上面[]里的名稱一致
"odbc_type"="mysql",
"type"="odbc_catalog");
4. 基于 Resource 創(chuàng)建Doris 外表
CREATE EXTERNAL TABLE `test_odbc_5_3_11` (
`id` int NOT NULL ,
`name` varchar(255) null
) ENGINE=ODBC
COMMENT "ODBC"
PROPERTIES (
"odbc_catalog_resource"="mysql_5_3_11", -- 名稱就是 resource 的名稱
"database"="test_doris",
"table"="test_cdc"
);
5. 插入數(shù)據(jù)
在 MySQL 端插入數(shù)據(jù),在 ODBC 和 doris 都可以通過select 語(yǔ)句獲取插入的數(shù)據(jù);
在 doris 端插入數(shù)據(jù),在 ODBC 和 MySQL 都可以通過select 語(yǔ)句獲取插入的數(shù)據(jù);
在 ODBC 端插入數(shù)據(jù),在 doris 和 MySQL 都可以通過select 語(yǔ)句獲取插入的數(shù)據(jù);
不管在 ODBC,MySQL還是 doris 端,任何一端執(zhí)行 insert 語(yǔ)句,在另外兩個(gè)都可以通過 select 語(yǔ)句獲取插入的數(shù)據(jù);
官方支持的其它 ENGINE : https://doris.apache.org/zh-CN/docs/sql-manual/sql-reference/Data-Definition-Statements/Create/CREATE-EXTERNAL-TABLE/
需要源碼進(jìn)行重新編譯,否則建完表后執(zhí)行查詢語(yǔ)句報(bào) [INTERNAL_ERROR]Don't support MySQL table, you should rebuild Doris with WITH_MYSQL option ON 錯(cuò);
1. 找到 doris 源碼家目錄下 build.sh 文件;
2. 將 WITH_MYSQL='OFF' 改成 WITH_MYSQL='ON';
3. 重新編譯;
CREATE EXTERNAL TABLE demo.student
(
`s_id` varchar(20) NOT NULL,
`s_name` varchar(20) NOT NULL DEFAULT '',
`s_birth` varchar(20) NOT NULL DEFAULT '',
`s_sex` varchar(10) NOT NULL DEFAULT ''
)
ENGINE=mysql
PROPERTIES
(
"host"="cdh003",
"port"="3306",
"user"="root",
"password"="root",
"database"="test",
"table"="student",
"charset"="utf8mb4"
);
文章信息
摘要
辣椒(Capsicum)因其含有辣椒素類物質(zhì)而使得其果實(shí)具有獨(dú)特的辛辣味而聞名。由于缺乏高質(zhì)量的辣椒基因組,辣椒素生物合成的進(jìn)化史及其組織特異性的機(jī)制仍然不清楚。在這里,我們論述了一年生栽培辣椒(C.annuum)和不產(chǎn)辣椒素的野生辣椒(C.rhomboideum)的兩個(gè)端粒到端粒的(T2T)無(wú)間隙基因組,以研究辣椒中果實(shí)辛辣味的進(jìn)化。我們精確地描繪了辣椒著絲粒,該著絲粒缺乏高拷貝串聯(lián)重復(fù)序列,但被CRM反轉(zhuǎn)錄轉(zhuǎn)座子廣泛入侵。通過系統(tǒng)發(fā)育分析,我們估計(jì)了辣椒素生物合成的進(jìn)化時(shí)間。我們揭示了非刺激性物種中關(guān)鍵生物合成基因的編碼和調(diào)控區(qū)域被破壞。我們還發(fā)現(xiàn)了被保護(hù)的特殊胚胎組織可進(jìn)入染色質(zhì)區(qū)域,這可能使得組織特異性生物合成基因共調(diào)節(jié)和辣椒素積累。這些T2T基因組資源將加速辣椒遺傳改良,并有助于了解辣椒基因組進(jìn)化。
引言
辣椒(Capsicum annuum)是茄科(Solanaceae)的一員,是一種在世界范圍內(nèi)種植的蔬菜和香料作物,其果實(shí)因其果實(shí)的辛辣味而聞名,這是辣椒素的結(jié)果。辣椒素是通過苯丙氨酸途徑和支鏈脂肪酸途徑匯合,然后通過辣椒素合酶(CS)[1]縮合合成的生物堿;然而,完整的生物合成途徑尚未闡明。植物進(jìn)化生物學(xué)家對(duì)茄科辣椒素生物合成的誕生和死亡知之甚少。辣椒素的生物合成發(fā)生在辣椒的果實(shí)胚胎組織中,這是辣椒屬的獨(dú)特特征,并且在其他茄科植物(例如番茄[2])中未檢測(cè)到。然而,果實(shí)辛辣味并不普遍存在于辣椒中,因?yàn)樵诶苯返膸讉€(gè)栽培品種和野生近緣種(例如辣椒)中發(fā)現(xiàn)了非辛辣味[3]辣椒屬的機(jī)制。由于缺乏辣椒屬(尤其是非刺激性成員)可用的高質(zhì)量基因組資源,人們對(duì)果實(shí)辛辣味的獲得和喪失以及辣椒素如何在果實(shí)中專門產(chǎn)生仍然知之甚少。
C.annuum(品種CM334)的基因組組裝草案于2014年發(fā)布,大小為3.06Gb,重疊群N50為30kb2。后來,隨著單分子DNA測(cè)序技術(shù)的發(fā)展,一些組裝體的質(zhì)量得到了提高;例如,品種“59”(3.07Gb,重疊群N50:41.27Mb)[4]、“Takanotsume”(3.05Gb,重疊群N50:99.05Mb)[5]和CC090(3.06Gb,重疊群N50:187.09Mb)[6]的組合。迄今為止,包括C.annuum、C.baccatum、C.chinense和C.pubescens在內(nèi)的23個(gè)栽培辣椒基因組序列已公開[7-11],而野生辣椒的基因組序列非常稀缺[7]。盡管不斷改進(jìn),已發(fā)布的組裝仍然包含大量間隙和組裝錯(cuò)誤,并且缺少完整的著絲粒和端粒。辣椒基因組重復(fù)豐富(~80%),使得基因組組裝特別具有挑戰(zhàn)性。組裝間隙和錯(cuò)誤常常導(dǎo)致基因的錯(cuò)誤注釋和遺傳變異的錯(cuò)誤發(fā)現(xiàn);因此,辣椒功能基因組研究仍然具有挑戰(zhàn)性。因此,生成端粒到端粒(T2T)無(wú)間隙且準(zhǔn)確注釋的基因組序列對(duì)于提高辣椒的精確遺傳特征以及剖析辣椒素和其他有價(jià)值的天然產(chǎn)物的完整生物合成途徑至關(guān)重要。
對(duì)于具有大量重復(fù)、高雜合性或多倍體的大型復(fù)雜基因組的真核生物來說,完整基因組序列的準(zhǔn)確組裝仍然是一項(xiàng)艱巨的任務(wù)。人類T2T聯(lián)盟最近在組裝完整人類基因組序列方面取得了突破,這是人類基因組學(xué)的一個(gè)里程碑[12]。這一突破徹底改變了人類基因組變異以及著絲粒表觀遺傳和轉(zhuǎn)錄特征的分析[13-15]。在第一個(gè)植物基因組序列發(fā)表近二十年后,最近報(bào)道了擬南芥[16-18]、水稻[19、20]、馬鈴薯[21]和大豆[22]的T2T無(wú)間隙基因組組裝。然而,這些被認(rèn)為是接近完整的基因組,在難以組裝的區(qū)域中存在微小間隙,或者遺漏了一些通常含有高拷貝串聯(lián)重復(fù)序列的端?;蛑z粒。此外,這些已發(fā)表的植物T2T基因組相對(duì)較?。〝M南芥為134Mb[16],水稻為385Mb[20],馬鈴薯為773Mb[21],大豆為1.01Gb[22])。最近,報(bào)道了玉米(2.10Gb)[23]的完整基因組組裝。然而,大型復(fù)雜植物基因組的完整基因組非常罕見,而眾所周知,它們的組裝更加困難。
在這項(xiàng)研究中,我們對(duì)兩個(gè)T2T無(wú)間隙辣椒基因組序列進(jìn)行了從頭組裝和注釋,其中包括辛辣的辣椒C.annuum和它的非辛辣的野生近緣辣椒C.rhomboideum;這些序列構(gòu)成了辣椒基因組研究的里程碑。對(duì)兩個(gè)T2T基因組的深入分析揭示了它們著絲粒的獨(dú)特結(jié)構(gòu)、表觀遺傳和轉(zhuǎn)錄特征。通過系統(tǒng)發(fā)育和表觀基因組數(shù)據(jù)分析獲得了對(duì)類辣椒素生物合成途徑和調(diào)節(jié)的進(jìn)化見解。我們的研究提供了及時(shí)的基因組資源和見解,這將促進(jìn)辣椒研究和遺傳改良。
結(jié)果
T2T無(wú)間隙辣椒基因組組裝
為了組裝刺激性C.annuum和非刺激性C.rhomboideum的T2T無(wú)間隙基因組,我們生成了高覆蓋率的PacBio HiFi讀段、牛津納米孔技術(shù)(ONT)超長(zhǎng)讀段、Illumina配對(duì)末端(NGS)讀段和高通量染色質(zhì)構(gòu)象C.annuum雙單倍體品種G1-36576和C.rhomboideum野生種質(zhì)PI645680的捕獲(Hi-C)測(cè)序讀數(shù)(補(bǔ)充圖1和補(bǔ)充表1)?;蚪M組裝是使用內(nèi)部管道進(jìn)行的,該管道集成了各種計(jì)算工具,以最大限度地發(fā)揮各種類型數(shù)據(jù)的強(qiáng)度(補(bǔ)充圖2和補(bǔ)充表2)。簡(jiǎn)而言之,首先分別使用hifiasm[24]和NextDenovo[25]分別組裝HiFi和ONT讀取。基于C.annuum HiFi的組裝體大小為3.13Gb,重疊群N50為262.4Mb,包含18個(gè)端粒,12個(gè)重疊群的一端或兩端有數(shù)千個(gè)端粒重復(fù)單元(TRU)拷貝,其中6個(gè)為T2T。組裝ONT讀數(shù)生成了3.10Gb的組裝草稿,其中重疊群N50為177.8Mb,包含22個(gè)端粒和10,000多個(gè)TRU副本,其中四個(gè)接近T2T。然后使用ONT組裝來填充HiFi組裝中的間隙(補(bǔ)充表3)和修補(bǔ)端粒,產(chǎn)生包含12個(gè)無(wú)間隙染色體級(jí)重疊群(具有22個(gè)端粒)以及含有45SrDNA陣列的重疊群的混合組裝體。使用包含45SrDNA的HiFi讀段分別組裝核仁組織區(qū)(NOR),并根據(jù)特定的k聚體將重疊群組裝成單個(gè)序列(補(bǔ)充圖3)。為了確保準(zhǔn)確性,ONT起源的序列被替換為相應(yīng)的HiFi組裝重疊群,然后對(duì)12條染色體進(jìn)行Hi-C支架(圖1a),并使用Juicebox[26]手動(dòng)糾正錯(cuò)誤組裝。添加rDNA陣列和端粒修補(bǔ)后,C.annuum基因組的最終T2T無(wú)間隙組裝(CaT2T)為3.1Gb,重疊群N50為262.6Mb(表1);Ca59中的所有503個(gè)缺口均已閉合(圖1b),并且此完整的C.annuum基因組組裝代表了迄今為止報(bào)道的最大的完整基因組序列(圖1c)。使用相同的方法,我們組裝了C.rhomboideum的1.70GbT2T無(wú)間隙基因組序列(CrT2T),包含13條染色體,重疊群N50為146.0Mb(圖1a和表1),代表非-馴化辣椒(圖1c)。我們鑒定了C.annuum的完整端粒集(24/24)(補(bǔ)充圖4)和C.rhomboideum的大部分(17/26)端粒(補(bǔ)充圖5)。同線性分析顯示,45.07%的C.rhomboideum基因與C.annuum是同線的(補(bǔ)充表4),但它們的全基因組比對(duì)顯示序列同一性較低,表明存在很大差異。通過比較兩個(gè)基因組,我們證明至少需要10次染色體裂變和11次融合才能從C.rhomboideum的核型中獲得C.annuum核型(圖1d和補(bǔ)充圖6)。
基因組驗(yàn)證和注釋
我們對(duì)兩個(gè)T2T基因組組裝進(jìn)行了廣泛的驗(yàn)證。首先,我們檢查了它們的Hi-C染色質(zhì)相互作用圖,結(jié)果顯示CaT2T和CrT2T組件內(nèi)的重疊群沒有明顯錯(cuò)位(補(bǔ)充圖7)。然后,我們將所有HiFi、ONT和NGS讀取分別映射到組件上,所有三種數(shù)據(jù)類型的映射率均超過99.96%(補(bǔ)充表5)。映射的HiFi或ONT讀數(shù)顯示整個(gè)基因組的均勻覆蓋,但由于存在高拷貝數(shù)隨體DNA重復(fù),CrT2T中存在一些例外(補(bǔ)充圖7)。CaT2T和CrT2T的質(zhì)量值(QV)分別為56.60和77.18,BUSCO得分分別為98.62%和97.12%,證明了兩種組件的高精度和完整性(表1)。此外,將最近發(fā)表的C.annuum品種‘59’(以下簡(jiǎn)稱Ca59)[4]的基因組組裝與CaT2T組裝進(jìn)行比對(duì),顯示出很強(qiáng)的共線性(補(bǔ)充圖2)。這些間隙區(qū)域中映射的HiFi和ONT讀取的高覆蓋率很好地支持了CaT2T的高質(zhì)量組裝(補(bǔ)充圖8和補(bǔ)充表6)。有趣的是,我們觀察到針對(duì)CaT2T和CrT2T的零星高覆蓋讀圖譜,它們對(duì)應(yīng)于完整的線粒體或葉綠體基因組;這一結(jié)果得到了跨越整個(gè)整合位點(diǎn)的ONT超長(zhǎng)讀長(zhǎng)映射的高覆蓋率的驗(yàn)證(補(bǔ)充圖9和補(bǔ)充表7),表明最近質(zhì)體基因組整合在核基因組中。
重復(fù)注釋顯示,C.annuum和C.rhomboideum基因組的79.5%(2.45Gb)和74.6%(1.28Gb)是重復(fù)序列,主要由轉(zhuǎn)座元件(TE),特別是長(zhǎng)末端重復(fù)(LTR)反轉(zhuǎn)錄轉(zhuǎn)座子組成(補(bǔ)充表8)。雖然C.rhomboideum中的LTR插入發(fā)生得相對(duì)較晚,但C.annuum在大約10萬(wàn)年前(Mya)和3.9Mya中有兩次插入爆發(fā)(補(bǔ)充圖10),與之前關(guān)于Ca59組裝的報(bào)告一致[4]。兩種辣椒基因組的含量都較低隨體DNA重復(fù)序列(<0.01%),遠(yuǎn)低于人類(4.5%)、模式植物擬南芥(0.37%)及其茄科相關(guān)煙草(1.75%)。通過結(jié)合從頭開始預(yù)測(cè)、同源蛋白和轉(zhuǎn)錄組數(shù)據(jù),分別預(yù)測(cè)了CaT2T和CrT2T的總共34,428個(gè)和33,512個(gè)蛋白質(zhì)編碼基因。CaT2T填補(bǔ)的空白編碼了614個(gè)基因,其中110個(gè)是新注釋的(與Ca59非同線)(補(bǔ)充圖11)。兩種辣椒基因組在染色體末端都是基因密集的,但在著絲粒附近是基因稀疏的。CaT2T編碼117個(gè)假定的辣椒素生物合成基因(CBG),包括先前報(bào)道的編碼辣椒素合酶(CS)、氨甲基轉(zhuǎn)移酶(AMT)、酮?;?ACP合酶(Kas)和?;d體蛋白(ACL)[27]的基因(補(bǔ)充數(shù)據(jù)1)。這些推定的CBG在至少一種組織中表達(dá),其中26種在果實(shí)胎盤中的表達(dá)水平比其他組織高得多(補(bǔ)充圖12);因此,它是全面闡明類辣椒素生物合成酶的有力候選者。
圖1|兩個(gè)辣椒基因組的T2T無(wú)間隙組裝。Circos圖顯示了C.annuum(CaT2T)和C.rhomboideum(CrT2T)的T2T基因組組裝。從a到g的軌跡如下:染色體(紅色:Ca,藍(lán)色:Cr)、GC含量、基因密度、TE密度、LTR/Gypsy密度、LTR/Copia密度和代表全基因組同線性塊的色帶。著絲粒區(qū)域(黑色)表示在染色體軌道上。b氣泡圖突出顯示了本研究中辣椒基因組組裝的關(guān)鍵統(tǒng)計(jì)數(shù)據(jù)(CaT2T和CrT2T)以及之前報(bào)道的數(shù)據(jù)。cCaT2T基因組組裝的染色體表意圖,顯示填充間隙、候選辣椒素生物合成基因(CBG)、著絲粒和端粒的映射,以及覆蓋在每條染色體上的基因密度熱圖。d重建CaT2T和CrT2T之間的重排(裂變和融合)事件。同線性塊由MCScanX著色。紅色矩形表示著絲粒區(qū)域。源數(shù)據(jù)作為源數(shù)據(jù)文件提供。
表1|兩個(gè)辣椒物種基因組組裝及注釋統(tǒng)計(jì)
辣椒著絲粒被CRM逆轉(zhuǎn)錄轉(zhuǎn)座子廣泛侵入
著絲粒對(duì)于細(xì)胞分裂過程中染色體的分離至關(guān)重要,通常是具有兆堿基串聯(lián)重復(fù)陣列的異染色質(zhì)區(qū)域,其中動(dòng)粒蛋白復(fù)合物結(jié)合[28]。我們首先通過生成C.annuum的CENH3 ChIP-seq數(shù)據(jù)來鑒定CaT2T的著絲粒,這清楚地表明了CaT2T的著絲粒。描繪了CaT2T中12個(gè)著絲粒的位置和邊界(圖2a)。然后,我們觀察到染色體間相互作用始終與ChIP-seq峰呈正相關(guān),尤其是在CrT2T中(補(bǔ)充圖13)。與擬南芥[16]和人類[13]著絲粒不同,辣椒著絲粒缺乏高拷貝串聯(lián)隨體DNA重復(fù)序列和高階重復(fù)序列(HOR),這暗示著新形成的著絲粒[29]。此外,我們發(fā)現(xiàn)辣椒著絲粒被Gypsy-LTR廣泛侵入,約占總著絲粒序列的71%(圖2b),其中Gypsy-LTR僅占整個(gè)基因組的47.3~49.7%(補(bǔ)充表8))。這種模式在單粒小麥[30]和棉花[31]中也有報(bào)道,其中超過80%的功能著絲粒是Gypsy-LTR。我們還發(fā)現(xiàn)著絲粒中LTR插入的爆發(fā)晚于整個(gè)基因組中的LTR插入,這表明著絲粒的近期進(jìn)化是由LTR插入塑造的(圖2b)。由于不等同源重組事件產(chǎn)生片段化或單獨(dú)的LTR,LTR通常會(huì)發(fā)生重組和重排[32]。在兩個(gè)辣椒基因組中鑒定出許多單獨(dú)的LTR和完整的LTR(補(bǔ)充表9)。我們觀察到,辣椒著絲粒去除LTR的能力比非著絲粒弱,其單獨(dú)與完整LTR的比率明顯低于整個(gè)基因組的比率(圖2c)。同線性分析顯示,玉米著絲粒逆轉(zhuǎn)錄轉(zhuǎn)座子(CRM)在多個(gè)辣椒基因組的著絲粒中富集(補(bǔ)充圖13),表明CRM的分布是一個(gè)標(biāo)記,可用于在不依賴ChIP-seq數(shù)據(jù)的情況下識(shí)別辣椒著絲粒。CRM具有與著絲粒組蛋白相互作用的染色結(jié)構(gòu)域或CR基序,并在著絲粒進(jìn)化和功能中發(fā)揮重要作用[33]。此外,對(duì)兩個(gè)辣椒和馬鈴薯基因組中的GypsyLTR反轉(zhuǎn)錄轉(zhuǎn)座子的系統(tǒng)發(fā)育分析揭示了六個(gè)亞科,其中包括兩個(gè)主要亞科:Athila和Tekay。Athila LTR是擬南芥著絲粒[16]中的主要LTR,與辣椒著絲粒不同,后者富含CRM Gypsy-LTR(圖2d;補(bǔ)充表9;補(bǔ)充數(shù)據(jù)2)。隨體DNA重復(fù)的缺乏和CRMLTR的富集(圖2e)將辣椒著絲粒與其他已發(fā)表的植物T2T基因組中報(bào)道的著絲粒區(qū)分開來[16,20-22]。引人注目的是,CrT2T的CRM含量高于CaT2T,這可能有助于其著絲粒內(nèi)序列同一性的獨(dú)特特征(補(bǔ)充圖14)。對(duì)于兩個(gè)T2T基因組,我們觀察到較低的種間和染色體間著絲粒序列同一性,表明辣椒著絲粒在物種內(nèi)部和物種之間存在快速分化;這一結(jié)果與最近對(duì)擬南芥著絲粒的研究結(jié)果一致[34]。
著絲粒和端粒具有轉(zhuǎn)錄和表觀遺傳活性
就蛋白質(zhì)編碼基因以及轉(zhuǎn)錄和表觀遺傳控制而言,著絲粒和端粒是人們知之甚少的基因組區(qū)域?;蚪M注釋顯示,CaT2T著絲粒中的60個(gè)基因在冷凍反應(yīng)、DNA拓?fù)渥兓蜏p數(shù)分裂染色體分離等功能上富集(補(bǔ)充圖15)。相比之下,CrT2T著絲粒編碼了94個(gè)基因,這些基因富含UV-B反應(yīng)、光合作用和晝夜節(jié)律調(diào)節(jié)。有趣的是,只有六七個(gè)著絲?;蚴峭吹模ㄑa(bǔ)充數(shù)據(jù)3)。著絲粒基因的低同源性反映了物種之間著絲粒的高度差異,這與它們較差的全基因組序列比對(duì)一致。我們發(fā)現(xiàn)CaT2T著絲粒(圖3a和補(bǔ)充圖16和17)和端粒(圖3b)表現(xiàn)出轉(zhuǎn)座子和蛋白質(zhì)編碼基因的活躍轉(zhuǎn)錄,如RNA-seq分析所示。例如,大約42個(gè)(70.0%)著絲粒編碼基因在C.annuum的至少一個(gè)組織(TPM>1)中表達(dá),包括編碼端粒維持蛋白(保護(hù)端粒末端免受攻擊)的CaT2T07g00954和編碼端粒末端免受攻擊的CaT2T01g02835控制開花時(shí)間的蛋白質(zhì)。CrT2T著絲粒編碼基因(92.5%)在染色體濃縮調(diào)節(jié)因子(RCC1)的三個(gè)串聯(lián)拷貝上更加活躍,平均TPM>200;這些基因在有絲分裂中染色質(zhì)濃縮的調(diào)節(jié)中發(fā)揮關(guān)鍵作用。
辣椒基因組包含豐富的表觀基因組特征,例如DNA甲基化、組蛋白修飾、拓?fù)湎嚓P(guān)結(jié)構(gòu)域(TAD)和A/B區(qū)室4。然而,人們對(duì)著絲粒和端粒中的這些表觀遺傳標(biāo)記知之甚少。因此,我們將自己生成的(Hi-C和全基因組亞硫酸氫鹽測(cè)序)和公共表觀基因組(組蛋白ChIP-seq)數(shù)據(jù)映射到CaT2T組裝。Hi-C數(shù)據(jù)分析揭示了著絲粒內(nèi)的A/B區(qū)室、TAD和小染色質(zhì)環(huán)(圖3a)。C.annuum著絲粒主要屬于“B”區(qū)室,通常與低轉(zhuǎn)錄相關(guān);然而,在一些著絲粒上也檢測(cè)到了“A”區(qū)室,例如Chr08、Chr09和Chr10(補(bǔ)充圖17)。一致地,在具有富集CENH3 ChIP-seq信號(hào)的異染色質(zhì)著絲粒和著絲粒周圍檢測(cè)到高TE密度、低基因密度(圖3c)和低組蛋白H3K9me2 ChIP-seq峰(圖3d)。有趣的是,雖然著絲粒和非著絲粒區(qū)域的DNA甲基化水平總體上相當(dāng)(圖3c),但我們發(fā)現(xiàn)著絲粒定位的CRM顯示出比基因側(cè)翼區(qū)域更低的基因體CHG甲基化(圖3e和補(bǔ)充圖18),這表明CRM具有高轉(zhuǎn)錄活性。盡管異染色質(zhì)具有本質(zhì)特征,但著絲粒中的轉(zhuǎn)錄并非沉默,因?yàn)槲覀冭b定了一些高表達(dá)的基因和TE,例如編碼過氧化還原蛋白Q蛋白的Chr07上的一個(gè),該蛋白參與細(xì)胞氧化還原穩(wěn)態(tài)(圖3a)。與著絲粒相比,大多數(shù)端粒具有較低的Hi-C定位信號(hào)(圖3b),這可能是由于串聯(lián)端粒重復(fù)的高密度。亞端粒區(qū)域基因相對(duì)豐富,大多與“A”區(qū)室相關(guān),并標(biāo)記有低H3K9me3 ChIP-seq信號(hào),但基因稀疏區(qū)域除外(圖3b)。這些結(jié)果為辣椒復(fù)雜基因組區(qū)域的組織和功能提供了前所未有的見解。
圖2|C.annuum基因組著絲粒區(qū)域的基因組結(jié)構(gòu)。a示意圖顯示了Cat2T中12個(gè)著絲粒中不同轉(zhuǎn)座元件的分布。CENH3ChIP-seq信號(hào)(兩次生物重復(fù)的平均值)由30kb窗口中的富集水平表示,ChIP識(shí)別的著絲粒由灰色框標(biāo)記。CRM軌道的紅線表明完整的CRM位于著絲粒中。b全基因組和著絲粒的特定LTR插入時(shí)間分布。圖中的中心白線和黑線分別表示插入時(shí)間的中位數(shù)和上下四分位數(shù)。使用雙邊Wilcoxon秩和檢驗(yàn)評(píng)估組間的顯著差異。c整個(gè)基因組和著絲粒中單獨(dú)LTR與完整LTR-RT分布的特異性比。使用雙邊Wilcoxon秩和檢驗(yàn)評(píng)估組間的顯著差異。d由來自C.annuum、C.rhomboideum和S.tuberosum的全基因組完整Ty3-Gypsy元件構(gòu)建的相鄰連接樹。分支中的紅色、綠色和黃色實(shí)心圓圈代表位于著絲粒區(qū)域的元件。e C.annuum和C.rhomboideum中非重疊5kb著絲粒區(qū)域的成對(duì)序列同一性示例。源數(shù)據(jù)作為源數(shù)據(jù)文件提供。
辣椒素生物合成途徑的進(jìn)化史
植物中辣椒素生物合成起始的機(jī)制仍然知之甚少。金等人。首先通過比較片段化的辣椒基因組與番茄基因組來解決這個(gè)問題,從而揭示辛辣的機(jī)制[2]。然而,更好地理解該途徑是如何出現(xiàn)和進(jìn)化的需要在更廣泛的系統(tǒng)發(fā)育背景下進(jìn)行研究。因此,我們通過使用兩個(gè)T2T辣椒基因組和14個(gè)其他被子植物基因組(補(bǔ)充表10)(包括3個(gè)辛辣物種和13個(gè)非辛辣物種)進(jìn)行系統(tǒng)發(fā)育學(xué)來重新審視這個(gè)問題。我們發(fā)現(xiàn)辣椒與酸漿(磨碎的櫻桃)的關(guān)系比與茄屬(例如番茄)的關(guān)系更密切,并且與兩個(gè)分類群的分化分別為~17Mya和~19Mya(圖4a)。類辣椒素生物合成僅限于辣椒這一事實(shí)表明,在大約17Mya與酸漿分離后,辣椒中一定出現(xiàn)了專門的代謝物。此外,C.baccatum在約5Mya處與C.annuum和C.chinense分離,它們?cè)诩s13.4Mya處與無(wú)刺激性的C.rhomboideum分離,表明辣椒素途徑可能起源于13.4Mya和5Mya之間(圖4a)。為了了解該途徑是如何在辣椒植物中產(chǎn)生的,我們使用OrthoFinder[35](補(bǔ)充數(shù)據(jù)4)從16種被子植物中鑒定了與已知CBG同源的基因。所有物種,無(wú)論是否有刺激性,都含有CBG的同源物,除了最關(guān)鍵的基因CS[1],僅在大約71Mya時(shí)以串聯(lián)重復(fù)形式出現(xiàn)在茄科中(圖4b和補(bǔ)充圖19)。其中,辣椒屬植物中CS拷貝數(shù)最多,其中有7個(gè)為C.annuum、six inC。chinense,和four inC.pubescens、C.baccatum和C.rhomboideum。由于前兩者的基因丟失或后者的串聯(lián)重復(fù),C.pubescens和C.baccatum的拷貝數(shù)比C.annuum少。事實(shí)上,CS重復(fù)在茄科植物中廣泛檢測(cè)到(圖4b),正如之前在番茄 [2]中報(bào)道的那樣,但串聯(lián)重復(fù)主要發(fā)生在茄屬、酸漿屬和辣椒屬中。30Mya和40Mya之間(圖4a)。此外,微同線性分析表明,CS串聯(lián)重復(fù)在辣椒、酸漿和茄屬植物中是同線性的(圖4c),其他CBG也是如此(補(bǔ)充圖20)。這一結(jié)果表明,無(wú)刺激性物種中CBG的表達(dá)可能已被破壞。事實(shí)上,我們發(fā)現(xiàn)許多CBG在辛辣辣椒的果實(shí)中高度表達(dá)(圖4d),而辣椒和酸漿的CS和KasI基因幾乎不表達(dá)(圖4d)。序列比對(duì)顯示,這些同線CS拷貝(CS-1/CS-2)在刺激性物種中具有保守的編碼序列(CDS)和上游和下游調(diào)節(jié)區(qū),而非刺激性物種在CDS和側(cè)翼區(qū)域內(nèi)都具有結(jié)構(gòu)變異(SV)(圖4e和補(bǔ)充圖21)。此外,在其他幾個(gè)CBG中觀察到序列變異,包括ACL、BCAT、CCoAMT、FatA和KasI(補(bǔ)充圖20)。高度保守的CS拷貝僅存在于栽培的辣椒中,表明它們是來自較舊的CS基因的相對(duì)較新的(~5Mya)串聯(lián)重復(fù)??偠灾?,這些結(jié)果表明,盡管非刺激性物種含有功能性CBG的同源物,但它們的編碼和調(diào)控區(qū)域與C.annuum的編碼和調(diào)控區(qū)域顯著不同。
圖3|C.annuumT2T基因組中難以進(jìn)入的區(qū)域的表觀基因組和轉(zhuǎn)錄特征。a以C.annuum Chr07著絲粒的特征為例。TAD、染色質(zhì)環(huán)、A/B區(qū)室、ChIP-seq信號(hào)(H3K27me3,紅色;H3K9me2,綠色;和H3K4me3,紫色)的分布、甲基化水平(CG,紅色;CHG,綠色;和CHH,紫色)、ATAC-seq信號(hào)、TE元件(Athila,藍(lán)色;CRM,黃色;Tekay,紅色;以及其他,灰色)、基因(綠色)、TE轉(zhuǎn)錄本豐度(藍(lán)色)和基因轉(zhuǎn)錄本豐度(紅色)從上到下繪制。b以C.annuumChr01的端粒表觀遺傳和轉(zhuǎn)錄景觀為例。c通過TE、GC和基因密度在著絲粒處或附近檢測(cè)到表觀遺傳信號(hào)。d CENH3和組蛋白修飾ChIP-seq信號(hào)位于著絲?;蚋浇 CG、CHG和CHH甲基化在Athila、CRM和Tekay區(qū)域(包括C.annuum的10kb上游和下游區(qū)域)的分布。
染色質(zhì)可及性調(diào)節(jié)組織特異性辣椒素生物合成
辣椒素生物合成具有高度組織特異性,僅發(fā)生在果實(shí)中,特別是在胎盤中,從開花后約16天開始。
為了了解如何實(shí)現(xiàn)組織特異性,我們對(duì)C.annuum果實(shí)和葉子進(jìn)行了多組學(xué)聯(lián)合分析,包括轉(zhuǎn)座酶可及染色質(zhì)測(cè)序(ATAC-seq)、全基因組亞硫酸氫鹽測(cè)序和RNA-seq,并使用CaT2T分析數(shù)據(jù)作為參考。RNA-seq分析顯示CS及其轉(zhuǎn)錄調(diào)節(jié)因子MYB31[36]和MYB48[37]在胎盤中特異性表達(dá)(圖4f)。在CS-2、MYB31和MYB48上游2kb內(nèi)檢測(cè)到具有低甲基化水平的胎盤特異性開放染色質(zhì)區(qū)域(OCR),而CS-1在果肉和種子中也顯示出OCR,表明CS-2可能是主要功能有助于胎盤特異性合成辣椒素的基因(圖4f和補(bǔ)充圖22)。另外26個(gè)推定的編碼苯丙素和纈氨酸途徑的CBG在果實(shí)和葉子中表達(dá),但缺乏組織特異性O(shè)CR,表明這些基因的功能超出了辣椒素生物合成的范圍(補(bǔ)充圖12)。盡管如此,與其他組織相比,胎盤中表達(dá)的增加(補(bǔ)充圖12)表明類辣椒素生物合成的強(qiáng)烈共調(diào)節(jié)。
圖4|辣椒素生物合成基因的進(jìn)化及其組織特異性。a、b C.annuum和相關(guān)被子植物物種的系統(tǒng)基因組分析。全基因組重復(fù)(WGD)或三倍(WGT)事件以及基因家族擴(kuò)張/收縮統(tǒng)計(jì)數(shù)據(jù)均標(biāo)記在MCMC系統(tǒng)發(fā)育樹上,該系統(tǒng)發(fā)育樹是使用單拷貝直向同源物構(gòu)建的(a)。MRCA代表最近的共同祖先。與該物種一起的小組總結(jié)了系統(tǒng)發(fā)育背景下與辣椒素生物合成相關(guān)的基因家族成員的豐度(b)。c辣椒素合酶(CS)基因的微同線關(guān)系及其在同線區(qū)中的串聯(lián)拷貝,在番茄(Sl)、毛酸漿(Pp)、辣椒素(Ca)、辣椒(Cr)、C.baccatum(Cb)、C.chinense(Cc)和C.pubescens(Cp)。紅線表示關(guān)鍵CS基因最接近的同源物。d左:類辣椒素生物合成途徑和關(guān)鍵基因圖。PAL,苯丙氨酸解氨酶;C4H,肉桂酸4-羥化酶;4CL,4-香豆酸:CoA連接酶;HCT,羥基肉桂酰轉(zhuǎn)移酶;CCoAOMT,咖啡酰輔酶A3-O-甲基轉(zhuǎn)移酶;C3H,香豆酸3-羥化酶;HCHL,羥基肉桂酰輔酶A水合酶/裂合酶;AMT,轉(zhuǎn)氨酶;BCAT,支鏈氨基酸轉(zhuǎn)氨酶;BCKDH,支鏈α-酮酸脫氫酶;Kas,β-酮脂酰-ACP合酶;ACL,?;d體蛋白;FatA,?;鵄CP-硫酯酶;ACS,乙酰輔酶A合成酶;和CS,辣椒素合酶。右:辣椒素生物合成基因及其同源基因在五種茄科植物不同組織中的轉(zhuǎn)錄表達(dá)熱圖。七種茄科植物中CS核苷酸序列的點(diǎn)圖。繪制的序列包括CS和串聯(lián)重復(fù)的完整編碼序列及其2kb側(cè)翼序列。f兩個(gè)CS基因和側(cè)翼區(qū)域的表觀基因組和轉(zhuǎn)錄組模式。g常見轉(zhuǎn)錄因子結(jié)合基序在七個(gè)辣椒素生物合成基因的開放染色質(zhì)區(qū)域(ATAC-seq)和上游(2kb)序列中富集。源數(shù)據(jù)作為源數(shù)據(jù)文件提供。
圖5|辣味和非辣味茄科植物中辣椒素合酶(CS)的進(jìn)化模型。a辛辣物種C.annuum(CaT2T)、C.baccatum和C.chinense均具有至少一個(gè)功能性CS基因。此外,C.annuum、C.baccatum和C.chinense具有多個(gè)串聯(lián)重復(fù)的CS基因(在13.38Mya和4.8Mya之間形成),其中大多數(shù)是部分基因旁系同源且無(wú)功能。Mya:百萬(wàn)年前。CRE:順式調(diào)節(jié)元件。b相比之下,無(wú)刺激性番茄(S.lycopersicum)、地莓(P.pubescens)和C. rhomboideum (CrT2T)物種缺乏功能性CS基因,但具有不同數(shù)量的CS串聯(lián)旁系同源物,包括部分CS或非CS基因。-由于CRE(在19.28Mya和13.38Mya之間形成)缺失而表達(dá)CS。c如ATAC-seq所鑒定,辛辣辣椒通過CS基因(CS2)周圍染色質(zhì)區(qū)域的胎盤特異性開放來實(shí)現(xiàn)辣椒素產(chǎn)生的組織特異性調(diào)節(jié),從而允許其轉(zhuǎn)錄(通過RNAseq確定)。相比之下,非刺激性物種由于缺乏CS基因的功能拷貝或相應(yīng)的CRE,因此不進(jìn)行辣椒素生物合成。
然而,如何實(shí)現(xiàn)基因組分散的CBG的共調(diào)節(jié)以賦予辣椒素生產(chǎn)的這種時(shí)空特異性仍然未知。人們期望CBG應(yīng)該有共同的監(jiān)管要素。為了驗(yàn)證這一假設(shè),我們提取了ATAC-seq鑒定的胎盤相關(guān)OCR和CBG的2kb上游序列,進(jìn)行序列基序富集分析,總共產(chǎn)生了38個(gè)富集基序(p<0.01)。從兩次富集分析中獲得的重疊富集基序揭示了5個(gè)轉(zhuǎn)錄因子結(jié)合基序(TFBS),即MYB、G-box、Box-4、ABRE和MYC,它們存在于所有7個(gè)CBG中,包括CS、ACL、KasI、PAL、CCoAOMT和BCAT(圖4g)。這些在常見OCR中顯著富集的TFBS可能被某些TF識(shí)別,例如MYB31,它在特定組織中共同調(diào)節(jié)這些CBG[36]。在無(wú)刺激性的C.annuum品種中,CS-2的OCR由于2.4kb的缺失而丟失,導(dǎo)致這些種質(zhì)中缺乏辣椒素(圖4f)。簡(jiǎn)而言之,多組學(xué)數(shù)據(jù)分析說明了辣椒中辣椒素生物合成基因的組織特異性共調(diào)節(jié)的可能表觀遺傳機(jī)制。
討論
本研究中生成的兩個(gè)T2T無(wú)間隙辣椒基因組組裝體代表了植物基因組研究的關(guān)鍵里程碑。首先,在第一個(gè)辣椒基因組[2]發(fā)表近十年后,我們繪制了辣椒的完整基因組序列。C.annuum,這是迄今為止報(bào)道的最大的完整基因組序列。辣椒基因組學(xué)追隨人類和擬南芥、水稻、玉米等模式植物的腳步,進(jìn)入了完整T2T基因組時(shí)代。其次,為了研究刺激性進(jìn)化的機(jī)制,我們?yōu)榉谴碳ば砸袄苯稢.rhomboideum組裝了T2T無(wú)間隙基因組。通過涉及五種辣椒(四種辛辣,一種非辛辣)和十種非辣椒(全部非辛辣)基因組的系統(tǒng)發(fā)育學(xué),我們通過估計(jì)辛味出現(xiàn)的時(shí)間、辣椒素的串聯(lián)重復(fù),追蹤了密切相關(guān)的茄科植物中辣椒素生物合成途徑的進(jìn)化歷史。關(guān)鍵基因發(fā)生,功能生物合成途徑在進(jìn)化樹中發(fā)展(圖5)。然而,由于缺乏足夠的高質(zhì)量辣椒基因組,除了本研究中組裝的兩個(gè)之外,回答一些關(guān)鍵的有趣的進(jìn)化問題很困難。例如,為什么辛辣的C.baccatum具有CS基因的一個(gè)功能性副本,而無(wú)刺激性的C.rhombiodeum卻設(shè)法保留了所有四個(gè)副本?功能性CS基因和順式調(diào)控元件是否可能已經(jīng)存在于茄科植物中,但后來在非刺激性物種中丟失了?或者,五種栽培辣椒物種可能通過馴化過程中的自然突變或TE轉(zhuǎn)座獲得功能性CS基因或順式調(diào)控元件。辣椒屬有40多個(gè)物種,具有不同的遺傳背景和性狀[38],但迄今為止只有4個(gè)物種的參考基因組可用。擁有更多辣椒屬基因組。未來,隨著辣椒素譜的多樣化,將有可能更好地推斷該途徑何時(shí)以及如何出現(xiàn)和消失。
許多植物次生代謝物在多個(gè)組織和器官中積累,但天然產(chǎn)物分子的組織特異性產(chǎn)生并不少見,例如罌粟膠囊中的嗎啡[39]和辣椒果實(shí)中的辣椒素。生物合成基因在特定組織中的表達(dá)是特異性所必需的,但其調(diào)節(jié)機(jī)制仍然難以捉摸。通常,代謝基因簇可以促進(jìn)生物合成基因的共調(diào)節(jié),正如在嗎啡(罌粟)[39]和擬南芥(Arabidopsis)[40]中觀察到的那樣。然而,參與許多植物代謝物生物合成的基因,例如辣椒素和秋水仙堿(百合)[41],一般不聚集且分散??傮w而言,人們對(duì)生物合成基因的時(shí)空調(diào)控機(jī)制知之甚少。通過對(duì)果實(shí)和葉子組織進(jìn)行比較ATAC-seq和RNA-seq分析,我們確定了果實(shí)特異性開放染色質(zhì)區(qū)域,其中包含幾個(gè)關(guān)鍵生物合成基因和編碼保守TF結(jié)合位點(diǎn)的調(diào)節(jié)因子(圖5)。這種協(xié)調(diào)一致的基因調(diào)控可能使得生物合成酶在特定時(shí)間和特定組織中有效產(chǎn)生。確定這些基因如何進(jìn)化出如此常見的順式調(diào)控元件將需要進(jìn)一步研究。
使用兩個(gè)T2T無(wú)間隙基因組使我們能夠深入了解復(fù)雜的基因組區(qū)域,例如著絲粒、端粒和填充間隙。著絲粒已在人類[13]、擬南芥[16]和水稻[20]的T2T基因組中進(jìn)行了廣泛研究,所有這些基因組都含有豐富的高拷貝串聯(lián)重復(fù)序列。然而,辣椒的著絲粒缺乏此類隨體DNA,但富含Gypsy-LTR,尤其是CRM反轉(zhuǎn)錄轉(zhuǎn)座子。根據(jù)最近報(bào)道的高質(zhì)量基因組,我們還發(fā)現(xiàn)這種模式在C.baccatum、C.chinense和C.pubescens中很常見,盡管CRM反轉(zhuǎn)錄轉(zhuǎn)座子的組成在不同辣椒物種之間有所不同。馬鈴薯基因組還顯示著絲粒中CRM的富集[21],但在P.pruinosa(1.38Gb,重疊群N50:82.2Mb)[42]的整個(gè)基因組中未發(fā)現(xiàn)CRM,這表明茄科著絲粒進(jìn)化迅速,并且在物種之間具有多樣性。由于轉(zhuǎn)座子入侵的周期,甚至在物種內(nèi)部,植物著絲粒正在迅速多樣化,最近對(duì)346個(gè)擬南芥著絲粒的研究表明[34],證明了所謂的著絲粒悖論。有了更完整的辣椒基因組,比較不同辣椒種質(zhì)或物種之間的著絲粒以了解著絲粒在物種形成和馴化過程中的進(jìn)化將會(huì)很有趣。
總之,在這項(xiàng)研究中,我們產(chǎn)生了迄今為止最大的完整植物基因組組裝(C.annuum)和兩個(gè)辣椒無(wú)T2T gap-free基因組?;贑apsicum T2T基因組的系統(tǒng)基因組學(xué)和多元組學(xué)揭示了辣椒果實(shí)中辣椒素類化合物獨(dú)特和組織特異性積累的進(jìn)化機(jī)制。這些T2T基因組資源是作物基因組研究的重要里程碑,將加速辣椒研究并促進(jìn)精準(zhǔn)改良。
方法
植物材料和測(cè)序
將C.annuum雙單倍體品系‘G1-36576’和C.rhomboideum野生種質(zhì)‘PI645680’植株種植在北京大學(xué)先進(jìn)農(nóng)業(yè)研究院溫室內(nèi)的普通杜鵑花盆中,盆中填滿盆栽混合物、粘土和蛭石的組合。2022年夏季和秋季,中國(guó)山東省濰坊市(北緯36°42′,東經(jīng)119°10′)。收獲4周齡的C.annuum和C.rhomboideum的新鮮葉子并進(jìn)行DNA檢測(cè)提取和測(cè)序。收集花后2天的葉、根、莖和花組織,以及花后21天的果實(shí)(分為果皮、胎盤和種子),從C.annuum和C.rhomboideum中收集RNA提取和測(cè)序。從花后21天收集葉、胎盤、果皮和種子組織并用于ATAC-seq。從花后21天收集葉和整個(gè)果實(shí)組織并用于亞硫酸氫鹽測(cè)序。
DNA和RNA分離
使用十六烷基三甲基溴化銨(CTAB)方法分離高分子量(HMW)基因組DNA。簡(jiǎn)而言之,將10μg干凈的新鮮葉子在液氮中研磨,然后進(jìn)行DNA提取。根據(jù)制造商的說明,使用Qubit儀器(Thermo Fisher Inc.)和脈沖場(chǎng)凝膠電泳儀(Bio-Rad)檢查DNA的質(zhì)量。根據(jù)制造商的說明,使用TRIzol RNA提取試劑(15596018CN,Thermo Fisher Inc.)分離總RNA。根據(jù)制造商的說明,使用Bioanalyzer 2100系統(tǒng)(5067-1511,Agilent Technologies,CA)的RNA Nano 6000檢測(cè)試劑盒對(duì)提取的RNA進(jìn)行評(píng)估。RNA完整性數(shù)(RIN)>6.0的RNA樣本進(jìn)行下游文庫(kù)構(gòu)建以進(jìn)行RNA測(cè)序。
基因組測(cè)序
Illumina雙端測(cè)序文庫(kù)是使用NEBNext? Ultra? 用于 Illumina 的 DNA 文庫(kù)制備試劑盒(E7645L,NEB,USA)根據(jù)制造商的標(biāo)準(zhǔn)方案制備的。簡(jiǎn)言之,通過超聲處理將5μg HMW DNA樣品片段化至350bp大小。然后對(duì)DNA片段進(jìn)行末端拋光、加A尾,并與全長(zhǎng)Illumina測(cè)序接頭連接。使用Novogene Biotechnologies,Inc.(中國(guó)天津)的Illumina Nova Seq6000平臺(tái)生成了總共300.8Gb(約100×基因組覆蓋度)的150bp雙端讀數(shù)。干凈的數(shù)據(jù)用于基因組調(diào)查、基因組組裝拋光和組裝評(píng)估。為了生成PacBio HiFi長(zhǎng)讀長(zhǎng),使用gTUBE(Covaris,MA,USA)剪切總共15μg HMW DNA,并通過PacBio SMRTbell Express Template Prep Kit 2.0(PacBio,CA,USA)構(gòu)建標(biāo)準(zhǔn)PacBio SMRTbell文庫(kù))。所得文庫(kù)在BluePippin(Sage Science,MA,USA)上進(jìn)行分離,截?cái)嚅L(zhǎng)度為15kb,以去除短DNA片段。然后,使用Novogene Biotechnologies,Inc.(中國(guó)天津)的PacBio Sequel II系統(tǒng)生成356.3Gb的HiFi一致性讀數(shù),N50長(zhǎng)度為18.3kb。為了生成Oxford Nanopore超長(zhǎng)讀數(shù),根據(jù)制造商的說明,使用連接測(cè)序SQK-LSK109試劑盒(Oxford Nanopore Technologies,Oxford,UK)對(duì)長(zhǎng)DNA片段進(jìn)行大小選擇和處理。簡(jiǎn)而言之,使用NEBNext末端修復(fù)/dA加尾模塊(新英格蘭生物實(shí)驗(yàn)室,英國(guó))對(duì)DNA末端進(jìn)行福爾馬林固定和石蠟包埋(FFPE)并進(jìn)行末端準(zhǔn)備/dA加尾。然后,使用NEBNext快速連接模塊(新英格蘭生物實(shí)驗(yàn)室,英國(guó))將測(cè)序接頭連接到準(zhǔn)備好的末端。最終的DNA文庫(kù)使用GridIONX5/PromethION測(cè)序儀(Oxford Nanopore Technologies,牛津,英國(guó))通過北京大學(xué)先進(jìn)農(nóng)業(yè)科學(xué)研究所(中國(guó)濰坊)的單分子測(cè)序平臺(tái)進(jìn)行測(cè)序??偣采闪?61.5Gb的超長(zhǎng)讀長(zhǎng),讀長(zhǎng)N50為100.3kb。Hi-C文庫(kù)是使用標(biāo)準(zhǔn)Hi-C方案從辣椒葉的交聯(lián)染色質(zhì)制備的[43]。然后,在Novogene Biotechnologies,Inc.(中國(guó)天津)使用Illumina Nova Seq6000儀器對(duì)文庫(kù)進(jìn)行測(cè)序,以獲得2×150bp配對(duì)末端讀數(shù)。使用HiC-Prov3.1.0[44]生成了總共348.2Gb的Hi-C數(shù)據(jù),覆蓋范圍約為112倍,并分類為有效或無(wú)效;僅保留有效的交互作用以供后續(xù)分析。
基因組組裝
步驟1:使用Jellyfishv2.3.0(k-mer大小=19)[45]和GenomeScope v1.0(最大k-mer覆蓋率=1,000,000)[46]的Illumina數(shù)據(jù)估計(jì)DH系“G1-36576”的基因組大小和雜合性.估計(jì)基因組大小為3.19Gb,雜合率為0.207%。
步驟2:對(duì)于PacBio組裝,使用hifiasm(v0.16.1)[24]使用默認(rèn)參數(shù)組裝HiFi讀數(shù)。ONT組裝使用NextDenovo(v2.5.0)[25]進(jìn)行,并使用NextPolish(v1.4.0)[47]進(jìn)行拋光,參數(shù)為“hifi_options=-min_read_len1k-max_depth100”和“sgs_options=-max_depth100-bwa”。然后我們對(duì)齊重疊群使用Minimap2(v2.24)[48]獲取C.annuum葉綠體(GenBank登錄號(hào)NC_018552.1)和線粒體(GenBank登錄號(hào)NC_024624.1)的參考基因組。從組裝中去除至少50%的堿基被葉綠體或線粒體基因組序列覆蓋的重疊群。
步驟3:Quickmerge[49]用于使用ONT組件中的重疊群(作為參考)連接HiFi組件中的重疊群(作為查詢),從而創(chuàng)建HiFi和ONT混合組件。由于ONT長(zhǎng)讀通常容易出錯(cuò),因此我們將HiFi重疊群與合并的組件進(jìn)行比對(duì),并用相應(yīng)的HiFi重疊群替換ONT原始序列。經(jīng)過此步驟,獲得了十個(gè)幾乎完整的染色體水平重疊群,而對(duì)應(yīng)于Chr04和Chr08的兩個(gè)重疊群僅具有單個(gè)端粒。然后使用Hi-C測(cè)序數(shù)據(jù)通過Juicer(v1.5)[50]、3D-DNA(v180419)[51]和Juicebox(v1.11.08)[26]管道錨定所有重疊群。為了進(jìn)行組裝驗(yàn)證,手動(dòng)檢查重疊群并調(diào)整方向,并在Juicebox[26]內(nèi)調(diào)整任何錯(cuò)誤組裝。
步驟4:近端著絲粒Chr08上的rDNA陣列是45S單元的長(zhǎng)串聯(lián)重復(fù)序列(18S-5.8S-25SrDNA)。為了組裝45SrDNA陣列,我們首先估計(jì)rDNA拷貝數(shù)。我們使用Barrnapv0.9(https://github.com/tseemann/barrnap)來預(yù)測(cè)HiFi讀數(shù)中rDNA的位置,并提取包含HiFi讀數(shù)的45SrDNA。根據(jù)包含45SrDNA的HiFi讀數(shù)的19聚體(>20kb,42×深度),拷貝數(shù)估計(jì)約為60,000/42=1,428。鑒定出兩種主要類型的不同長(zhǎng)度的重復(fù)單元,A型(8351-8377bp)和B型(8498-8506bp),分別占總45SrDNA陣列的70%和30%。為了組裝rDNA串聯(lián)陣列,我們使用centroFlye HOR pipeline[52]作為參考。由于rDNA單元之間的高度相似性以及ONT長(zhǎng)讀取的容易出錯(cuò)的特性,我們未能使用ONT數(shù)據(jù)組裝NOR區(qū)域。包含ONT長(zhǎng)讀段的45SrDNA用于提取包含端粒重復(fù)的前綴讀段、兩端包含兩種類型的rDNA的內(nèi)部讀段和包含非rDNA序列的后綴讀段。然后,我們使用hifiasm[24]組裝包含HiFi讀數(shù)的45SrDNA,以生成rDNA組裝草案(78個(gè)重疊群,N50為445.3kb,總和為15.5Mb)。通過結(jié)合提取的ONT讀段和組裝的HiFi重疊群,我們鑒定了罕見的19聚體,并將序列與相同的獨(dú)特19聚體連接起來。然后,我們使用HiC數(shù)據(jù)錨定這些序列,并通過使用Winnowmap2(v2.03,k=19,-xasm5)[53]將HiFi讀數(shù)映射到rDNA組裝來填補(bǔ)空白。我們最終獲得了具有1,506個(gè)rDNA拷貝的12.66MbrDNA陣列,并將該序列添加到Chr08的重疊群中。
步驟5:我們提取了至少十個(gè)端粒重復(fù)基序“TTTAGGG”或“TTCAGGG”變體的超長(zhǎng)ONT讀段(>200kb),并使用Winnowmap2(v2.03,k=19,-axmap-ont)[53]。使用這些比對(duì)坐標(biāo),包含端粒的讀數(shù)的突出序列被手動(dòng)修補(bǔ)到每個(gè)端粒。然后手動(dòng)確認(rèn)端粒在結(jié)構(gòu)上有效。最后,我們獲得了C.annuum編號(hào)G1-36576的T2T基因組組裝,并將其命名為CaT2T。類似地,使用上述相同策略組裝C.rhomboideum基因組。最終組件被命名為CrT2T。
基因組質(zhì)量評(píng)估
為了評(píng)估基因組組裝的質(zhì)量,我們首先使用Minimap2[51]和D-GENIES[54]比較了CaT2T和Ca59組裝體的基因組比對(duì)點(diǎn)圖。對(duì)于映射統(tǒng)計(jì),使用BWA(v0.7.17)[55]映射NGS短讀,使用Minimap2[48]映射HiFi和ONT長(zhǎng)讀。然后使用SAMtools(v1.10)[56]確定映射率和覆蓋深度。在IGV(v2.12.3)[57]中手動(dòng)檢查CaT2T基因組中解析的Ca59間隙區(qū)域。為了評(píng)估基因組完整性,我們應(yīng)用BUSCO(v5.4.3)[58]使用solanales_odb10數(shù)據(jù)庫(kù)(n=5,950)進(jìn)行直系同源檢測(cè)。使用Merqury(v1.3)[59]從HiFi讀取中估計(jì)質(zhì)量值(QV)。使用Tandem Repeat Finder(TRF,v4.09.1)[60]識(shí)別端粒序列,參數(shù)為“2 7 7 80 10 80 2000-d-l 16”。生成的“.dat文件”被轉(zhuǎn)換為GFF3文件,隨后用于識(shí)別七個(gè)堿基端粒重復(fù)。
重復(fù)注釋和TE分析
我們使用通用Repbase數(shù)據(jù)庫(kù)和RepeatModeler(https://github.com/Dfam-consortium/RepeatModeler)構(gòu)建的物種特異性重復(fù)庫(kù)來注釋兩個(gè)辣椒物種的DNA序列。然后通過RepeatMasker(v4.1.2)[61]使用以下參數(shù)對(duì)基因組中的重復(fù)元件進(jìn)行注釋和屏蔽:'-xsmall-s-no_id-cutoff255-frag20000-encbi'。以實(shí)現(xiàn)大規(guī)模精確發(fā)現(xiàn)LTR反轉(zhuǎn)錄轉(zhuǎn)座子,我們應(yīng)用LTR_Finder(v1.2)[62]、LTRharvest(v1.6.2)[63]和LTR_retriever(v2.9.0)[64]來識(shí)別LTR元件。我們分別在CaT2T和CrT2T中鑒定出7383個(gè)和9579個(gè)完整的LTR-RT候選物,它們用作TEtranscripts分析的輸入[65]。隨后使用從TE蛋白域數(shù)據(jù)庫(kù)REXd-plant獲得的HMM圖譜實(shí)施TEsorter(v1.3)[66]。首先在所有六個(gè)幀中翻譯TE序列,然后在數(shù)據(jù)庫(kù)中搜索翻譯的序列。覆蓋率低于20%或E值高于1e-3的命中被丟棄。對(duì)于LTRRT的分類,根據(jù)五個(gè)保守結(jié)構(gòu)域的存在和順序?qū)ν暾M(jìn)行了鑒定和分類,包括衣殼蛋白(GAG)、天冬氨酸蛋白酶(AP)、整合酶(INT)、逆轉(zhuǎn)錄酶(RT)和RNaseH(右)。過濾保守結(jié)構(gòu)域后,CaT2T和ChT2T中的LTR-RT數(shù)量分別減少至5202和6834。利用TEsorter(v1.3)[66]將Ty1-Copia元素分為Ale、Alesia、Angela、Bianca、Ikeros、Ivana、SIRE、TAR和Tork等分支;將Ty3-Gypsy元素分為Athila、CRM、Galadriel、Ogre、Reina、和Tekay等分支。使用LTR_retriever軟件中的‘solo_intact_ratio.pl’腳本計(jì)算每個(gè)LTR家族中單獨(dú)LTR與完整LTR的比率。使用LTR_retriever根據(jù)以下公式計(jì)算完整LTR反轉(zhuǎn)錄轉(zhuǎn)座子的插入時(shí)間:
其中K是兩個(gè)LTR之間的差異,是核苷酸取代率。我們采用(r)7×10?9的平均替代率來估計(jì)LTR-RT的插入時(shí)間。
基因組注釋
基因模型預(yù)測(cè)結(jié)合以下三個(gè)方面的證據(jù):(a)從頭開始預(yù)測(cè)、(b)同源蛋白和(c)RNA-seq證據(jù),使用MAKER(v2.31.11)[67]流程連續(xù)兩輪進(jìn)行。在第一輪中,提供了短讀長(zhǎng)和全長(zhǎng)RNA-seq證據(jù)和同源蛋白。用于基于同源性預(yù)測(cè)的蛋白質(zhì)序列來自擬南芥[16]、C.annuum[11]、S.tuberosum[21]和通用Swiss-Prot蛋白質(zhì)。為了實(shí)現(xiàn)MAKER流程,使用StringTie(v2.2.1)[68]將短讀長(zhǎng)RNA-Seq數(shù)據(jù)組裝成轉(zhuǎn)錄組。使用SMRT分析軟件Ioseq3(https://github.com)處理PacBio長(zhǎng)讀長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)/PacificBiosciences/IsoSeq)。使用BLAST通過MAKER將轉(zhuǎn)錄本和蛋白質(zhì)與軟掩蔽基因組進(jìn)行比對(duì),然后使用Exonerate(v2.2.0)[69]來完善BLAST命中,從而準(zhǔn)確注釋編碼區(qū)。est2genome和Protein2genome的參數(shù)設(shè)置為1,以便MAKER僅根據(jù)提供的轉(zhuǎn)錄本和蛋白質(zhì)來預(yù)測(cè)基因模型。然后使用AED[70]分?jǐn)?shù)<0.25的MAKER基因模型子集對(duì)SNAP[71]進(jìn)行三輪訓(xùn)練。GeneMark-ET和Augustus模型使用BRAKER(v2.1.6)[72]管道進(jìn)行訓(xùn)練。簡(jiǎn)而言之,使用Exonerate[69]和HISAT2(v2.1.0)[73]將相同數(shù)據(jù)與軟掩蔽基因組進(jìn)行比對(duì)。然后,根據(jù)預(yù)測(cè)的基因結(jié)構(gòu)對(duì)GeneMark-ET[74]進(jìn)行訓(xùn)練,得到的約6,000個(gè)良好基因模型用于訓(xùn)練AUGUSTUS(v3.2.3)[75]。在第二輪中,第一輪中的每組基因預(yù)測(cè)都通過model_gff選項(xiàng)傳遞給MAKER,并且證據(jù)對(duì)齊選項(xiàng)被關(guān)閉。經(jīng)過訓(xùn)練的SNAP、GeneMark-ET和AUGUSTUS模型也被集成到MAKER中,以預(yù)測(cè)更可信的基因。最后,過濾掉不支持的基因模型(keep_preds=0),保留AED評(píng)分<0.5的排名最高的基因集。
為了將之前發(fā)表的C.annuum4,11基因組注釋與我們的CaT2T基因組注釋進(jìn)行比較,我們還執(zhí)行Liftoff(v1.6.3)[76],根據(jù)“-flank”參數(shù)的參考來注釋CaT2T組件的蛋白質(zhì)編碼基因0.1-sc0.99--副本”。然后使用Gffread(v0.12.7)[77]過濾沒有正常開放閱讀框的轉(zhuǎn)錄本。最終在IGV-GSAman(v0.6.76)(https://gitee.com/CJchen/IGV-sRNA)中在映射RNA-seq讀取和之前注釋的支持下手動(dòng)檢查和糾正基因模型[4,11]。
同線性和系統(tǒng)基因組分析
制備了來自16個(gè)物種的非冗余蛋白質(zhì)序列用于直向同源分析(補(bǔ)充表10)。然后使用默認(rèn)設(shè)置和“-Mmsa”激活的OrthoFinder(v2.5.4)[35]推斷直系同源物和直系群。每個(gè)基因的最長(zhǎng)預(yù)測(cè)蛋白質(zhì)被用作OrthoFinder分析的代表性輸入。TrimA1(v1.4.12)[78]用于去除蛋白質(zhì)多序列比對(duì)中排列不良的區(qū)域。RAxML(v8.2.12)[79]用于使用GAMMAJTT模型構(gòu)建最大似然系統(tǒng)發(fā)育樹,以水稻作為外群。TimeTree(www.timetree.org)是一個(gè)公共數(shù)據(jù)庫(kù),包含來自各種出版物的分歧時(shí)間估計(jì)以及他們自己的估計(jì)。這些估計(jì)忽略異常值,用于選擇較低和較高統(tǒng)一校準(zhǔn)先驗(yàn)的范圍。對(duì)于屬于茄屬、雙子葉植物和所有植物的13個(gè)物種的最常見祖先,校準(zhǔn)值分別選擇為1.1–1.6、109.2–123.5和<200。PAML(v4.9)[80]中的CodeML和MCMCTree程序用于分析氨基酸替換模型并估計(jì)分歧時(shí)間。然后使用CAFE5[81]推斷每個(gè)基因組中的基因獲得和丟失率。OrthoFinder生成的鄰位群被視為不同的基因家族,并作為CAFE5分析的輸入。對(duì)鑒定出的基因進(jìn)行基因本體論(GO)和京都基因與基因組百科全書(KEGG)富集分析,顯著富集的p值設(shè)置為0.05。同線分析由JCVI(v1.1.19)[82]進(jìn)行。我們通過執(zhí)行全對(duì)所有的LAST搜索并將命中與20個(gè)基因的距離截止鏈接起來來識(shí)別同線性塊。此外,我們要求每個(gè)同線性塊至少有五個(gè)基因?qū)?。主要CBG的點(diǎn)圖顯示在Gepard[83]中。使用ParaAT(v2.0)[84]計(jì)算C.annuum同線性塊基因的Ks值。
CENH3ChIP-seq
使用具有對(duì)應(yīng)于C.annuum anti-CENH3的完整肽序列的抗原在兔中產(chǎn)生C.annuum anti-CENH3抗體??寡宓闹苽浜陀H和純化由AtaGenix(中國(guó)武漢)進(jìn)行。對(duì)于ChIP實(shí)驗(yàn),將辣椒幼苗用MS緩沖液(10mM磷酸鉀,pH7.0;50mMNaCl)中的1%甲醛溶液在室溫下真空固定15分鐘。固定后,將幼苗在真空下用0.15M甘氨酸在室溫下孵育5分鐘。約1g固定組織用液氮?jiǎng)驖{,純化細(xì)胞核,重懸于1ml細(xì)胞裂解緩沖液中,冰上孵育10分鐘,1500rpm(RC-3B,600×g)離心5分鐘(細(xì)胞裂解緩沖液:10mMTris、10mMNaCl、0.2%NP-40[pH8.0]、1×蛋白酶抑制劑)。將細(xì)胞裂解液進(jìn)一步重懸于1ml核裂解緩沖液中,冰上10分鐘(核裂解緩沖液:50mMTris、10mMEDTA、1%SDS、1×蛋白酶抑制劑)以分離細(xì)胞核。將重懸的染色質(zhì)溶液以~10%功率超聲處理五次,每次15秒(超聲儀SanyoSoniprep150設(shè)置為2.5)。測(cè)量染色質(zhì)樣品的體積,然后將ChIP稀釋緩沖液添加到含有2.5μg抗H3K4me3的1ml染色質(zhì)中,并將樣品在4°C下孵育12h。然后,加入50μlProteinA/G珠,并將樣品在4℃下孵育4小時(shí)。使用以下緩沖液將珠子洗滌兩次:洗滌緩沖液A(50mMHEPES-KOH pH7.5、140mMNaCl、1mMEDTA pH8.0、0.1% Na-deoxycholate、1%TritonX-100、0.1%SDS)、洗滌緩沖液B(50mMHEPES-KOH pH7.9、500mMNaCl、1mMEDTA pH8.0、0.1%脫氧膽酸鈉、1%TritonX100、0.1%SDS)、洗滌緩沖液C(20mMTris-HCl pH8.0、250mMLiCl、1mMEDTA pH8.0、0.5% Na-deoxycholate、0.5%IGEPALC-630、0.1%SDS)、洗滌緩沖液D(含0.2%TritonX-100的TE)和TE緩沖液。為了純化洗脫的DNA,添加200μl TE,并通過添加2.5μl 33mg/mLRNaseA(Sigma,R4642)并在37°C孵育2小時(shí)來降解RNA。然后將DNA重懸于50μlTE中,并使用Illumina V3通用DNA文庫(kù)制備試劑盒(Vazyme ND607)進(jìn)行擴(kuò)增。擴(kuò)增的ChIP文庫(kù)在Illumina NovaSeq 6000平臺(tái)上進(jìn)行測(cè)序。
表觀基因組測(cè)序和數(shù)據(jù)分析
Hi-C數(shù)據(jù)如上所述從葉組織中生成,并使用HiC-Pro(v3.1.0)[44]和Juicertools(v1.22.01)[53]進(jìn)行處理以生成10kb、15kb、20kb、25kb、40kb、100kband500kb接觸圖。A/B區(qū)室通過R(v4.2.0)腳本使用HiTC(v1.42.0)[85]和Cworld-dekker(v0.0.1)(https://github.com/dekkerlab/cworld-dekker)在100kb中進(jìn)行識(shí)別冰接觸矩陣。根據(jù)制造商的方案,使用ATAC-seq構(gòu)建試劑盒(中國(guó)南京Vazyme有限公司)對(duì)C.annuum的染色質(zhì)可及性進(jìn)行了分析。使用量子位評(píng)估構(gòu)建的文庫(kù)的質(zhì)量,然后使用Agilent Bioanalyzer2100進(jìn)行片段分析。使用Novogene,Inc.(中國(guó)天津)的Illumina NovoSeq 6000平臺(tái)對(duì)文庫(kù)進(jìn)行測(cè)序。為每個(gè)植物組織生成三個(gè)生物復(fù)制品,并使用相同的計(jì)算方法進(jìn)行分析。使用內(nèi)部計(jì)算管道分析ATAC-seq數(shù)據(jù)?;旧希褂脦в心J(rèn)參數(shù)的BWA-MEM(v2.2.1)[86]將干凈的ATAC-seq讀數(shù)映射到CaT2T參考基因組。比對(duì)文件(.bam)用于通過MACS2(v2.2.7.1)[87]調(diào)用峰。組蛋白修飾ChIP-seq數(shù)據(jù)從公共CNGBdb數(shù)據(jù)庫(kù)下載,登錄號(hào)為CNP0001129。對(duì)青花葉和整個(gè)果實(shí)組織進(jìn)行全基因組亞硫酸氫鹽測(cè)序。ChIP-seq映射和峰調(diào)用使用Bowtie2(v2.5.1)[88]、SAMtools(v1.10)[56]和MACS2(v2.2.7.1)[87]命令執(zhí)行。使用StainedGlass[89]完成著絲粒重復(fù)的可視化。使用BWA-MEM(v2.2.1)[86]將全基因組亞硫酸氫鹽測(cè)序(WGBS)數(shù)據(jù)映射到參考基因組后,使用Bismark(v0.24.0)[90]估計(jì)DNA甲基化水平。
轉(zhuǎn)錄組測(cè)序與分析
從葉、花、胚胎、根、莖、種子和果皮等七種組織中提取總RNA。然后使用Illumina True-seq轉(zhuǎn)錄組試劑盒(Illumina,CA)對(duì)mRNA進(jìn)行轉(zhuǎn)錄組測(cè)序文庫(kù)構(gòu)建。然后使用Biomarker Technologies Corporation(中國(guó)青島)的Illumina NovaSeq 6000平臺(tái)對(duì)文庫(kù)進(jìn)行測(cè)序,以生成150bp配對(duì)末端讀數(shù)。對(duì)于全長(zhǎng)轉(zhuǎn)錄組測(cè)序,使用SMARTer? PCR cDNA合成試劑盒(Clontech,CA,USA)將約5μg mRNA反轉(zhuǎn)錄為全長(zhǎng)cDNA,并通過PCR進(jìn)一步擴(kuò)增cDNA。對(duì)擴(kuò)增的cDNA進(jìn)行末端修復(fù),然后進(jìn)行SMRTbell接頭連接。連接產(chǎn)物進(jìn)一步用核酸外切酶處理,以降解失敗的產(chǎn)物,然后使用Biomarker Technologies Corporation(中國(guó)青島)的PacBio Sequal IIe儀器對(duì)Iso-Seq文庫(kù)進(jìn)行測(cè)序。使用SMRTlink管道在組織中組裝全長(zhǎng)轉(zhuǎn)錄本,并用于指導(dǎo)基因注釋。我們使用kallisto(v0.48.0)[91]量化基因表達(dá)水平。映射讀數(shù)的計(jì)數(shù)按每百萬(wàn)轉(zhuǎn)錄本(TPM)進(jìn)行標(biāo)準(zhǔn)化。使用HISAT2(v2.1.0)[73]進(jìn)行讀取比對(duì)。為了可視化樣本中感興趣基因的表達(dá)模式,使用R包生成了熱圖。
期刊:Nature Communications
文章標(biāo)題:Two telomere-to-telomere gapless genomes reveal insights into Capsicum evolution and capsaicinoid biosynthesis
作者信息:Weikai Chen, Xiangfeng Wang ,JieSun ,XinruiWang, Zhangsheng Zhu , Dilay Hazal Ayhan ,ShuYi,MingYan, Lili Zhang, Tan Meng,YuMu,JunLi,DianMeng, Jianxin Bian,KeWang,LuWang, Shaoying Chen , Ruidong Chen,JingyunJin, Bosheng Li , Xingping Zhang ,XingWangDeng ,HangHe &LiGuo
原文鏈接:https://doi.org/10.1038/s41467-024-48643-0
文內(nèi)圖片及封面圖片來源原文