水稻不僅是世界近一半人口的主要糧食作物,同時也是一種重要的模式生物。高通量測序技術(shù)的迅速發(fā)展促進了水稻組學數(shù)據(jù)的廣泛積累,使深入研究控制水稻重要農(nóng)藝性狀、種質(zhì)資源多樣性以及水稻馴化過程的機制成為可能。為此,研究人員構(gòu)建了相關(guān)的水稻數(shù)據(jù)庫,主要包括RAP-DB(日本農(nóng)業(yè)生物資源研究所構(gòu)建的水稻注釋項目)和MSU-RGAP(密歇根州立大學的水稻基因組注釋項目),然而這些數(shù)據(jù)庫缺乏有效手段對不同組學數(shù)據(jù)進行低成本、可持續(xù)的集成整合和維護更新。隨著各類組學數(shù)據(jù)體量的不斷增加,如何整合大量異質(zhì)的水稻組學數(shù)據(jù)、構(gòu)建集成的水稻信息存儲庫、實現(xiàn)便捷的訪問和提供友好可視化界面成為水稻研究面臨的關(guān)鍵問題。
中國科學院北京基因組研究所基因組科學與信息重點實驗室章張研究組、胡松年研究組、陳非研究組與北京大學、華中科技大學等單位的研究人員開展合作,采用可擴展和可持續(xù)的系統(tǒng)架構(gòu)設(shè)計,設(shè)立針對不同組學數(shù)據(jù)的模塊,每個模塊由具體的工作小組負責數(shù)據(jù)的收集、整理、分析、可視化以及更新維護,基于各個模塊的Web API接口集成整合水稻的多種組學數(shù)據(jù),開發(fā)建立了水稻多組學數(shù)據(jù)整合和信息共享數(shù)據(jù)庫IC4R(Information Commons for Rice)。該項工作也是國內(nèi)首次由多個聯(lián)合研究團隊共同參與完成的水稻多組學整合數(shù)據(jù)庫,研究成果已于2015年10月發(fā)表在國際生物信息學領(lǐng)域期刊Nucleic Acids Research。
IC4R具有良好的可擴展性和持續(xù)性以及維護成本低等特點,其包含的模塊主要有基于5000多株水稻重測序數(shù)據(jù)產(chǎn)生的變異信息數(shù)據(jù)庫、基于RNA-Seq測序數(shù)據(jù)的水稻基因表達數(shù)據(jù)庫、以稻屬為核心的植物同源數(shù)據(jù)庫、水稻蛋白不同水平翻譯后修飾數(shù)據(jù)庫、水稻文獻數(shù)據(jù)庫以及基于Wiki的水稻基因信息大眾審編(Community Curation)平臺。IC4R計劃后續(xù)整合更多類型的組學數(shù)據(jù),并將重要的農(nóng)藝性狀與多組學數(shù)據(jù)關(guān)聯(lián)起來,逐步發(fā)展成為水稻基礎(chǔ)研究和轉(zhuǎn)化研究的信息知識寶庫。
合作參與該項工作的主要人員包括北京大學副研究員何航、華中農(nóng)業(yè)大學教授陳玲玲、河南農(nóng)業(yè)大學教授張會勇、華中科技大學教授薛宇、中國農(nóng)業(yè)大學教授王向峰、內(nèi)蒙古師范大學教授紀兆華等。該項研究獲得了中科院先導項目、國家自然科學基金委、中科院百人計劃和“863”項目的資助。
論文鏈接 http://nar.oxfordjournals.org/content/early/2015/10/29/nar.gkv1141.full