中國網/中國發展門戶網訊 綠色制造是綜合考慮環境影響和資源效益的現代化制造形式,而綠色生物制做作為綠色制造主要的方法之一,具有得天獨厚的優勢。綠色生物制造以生物細胞及其酶的反應過程為焦點,以CO2、木質纖維素、農作物廢棄物、其他可再生生物基碳源等為原料,生產燃料、藥物分子、資料、大批化學品和食物等低碳、可持續發展產品,實現原料獲取、過程制造的綠色化和低碳化。綠色生物制造可以實現資源的高效應用和環境的可持續發展,是國家提出鼎力發展的新質生產力的主要組成部門。綠色生物制造以高科技、高機能、高質量等為特征,完善契合新質生產力,是合適新發展理念的先進生產力質中正區 水電行態。
高機能細胞工廠作為綠色生物制造的焦點,是工業發酵過程的主體。為響應疾速發展新質生產力的號召,細胞工廠需求疾速更換新的資料迭代以適應分歧的生產環境,以及尋求更高的生產機能,這對細胞工廠的精準設計、疾速迭代、發酵過程把持等提出了極高的請求。而隨著計算領域的發展,“數字孿生”(digital twin)實現了對化工過程優化與把持、新產品開發與測試等的數字化,人工智能更拓展并進步了數字孿生的應用范圍和後果。基于類似的設法,對細胞內復雜的生物過程進行數水電網字化模子構建,構建多種數據庫,并應用機器學習等手腕對酶、細胞工廠代謝網絡、發酵工藝等進行數字化,構成細胞工廠全性命周期數字化設計方式(圖1)。應用這些方式,可以疾速、高效獲得高機能細胞工廠,賦能綠色生物制造。
細胞工廠數字化基礎:代謝數據庫、酶數據庫
數據是數字化的基礎。在細胞大安 區 水電 行工廠中,由酶催化的代謝反應是大安區 水電行實現細胞生長、產物分解的關鍵。代謝數據庫包括代謝化合物、生化反應、催化生化反應的酶、代謝反應組合構成的代謝途徑等信息,是代謝網絡數字化的基礎。
近年來,隨著互聯網時代的來臨,酶、代謝數據的共享為研討人員帶來了極年夜的方便(中山區 水電表1)。KEGG、MetaCyc(BioCyc數據庫子數據庫)等常用的綜合代謝數據庫在分子程度樹立了對細胞代謝的系統認知,Brenda、PDB、Uniprot等酶反應數據庫則聚焦代謝反應酶的結構與效能。代謝數據庫和酶數據庫的結合,將由代謝途徑組成的代謝網絡,與酶結構台北 水電 行效能、催化活性、細胞定位等的酶催化數據相結合,構成對細胞工廠代謝的系統性表征。同時,隨著研討的深刻,HMDB(人類代謝組數據庫)、SGD(酵母基因組數據庫)、GMD(植物代謝組數據庫)等物種專有代謝數據庫、基因數據庫,在特定的應用環境中也發揮了主要感化。
我國在發展和建設自立知識產權的高質量代謝、酶數據庫方面發展較晚,導致我國在綠色生物制造產業發展平安及在國際上的焦點競爭力存在必定水平的隱患。為此,近年來國家和研討人員開始重視生物科學數據的標準化及平安治理,頒布了《中華國民共和不管怎樣,在這個美麗的夢裡多呆一會兒就好了,感謝上帝的憐憫。國生物平安法》,同時依托《中華國民共和國數據平安法》等法令法規,推進生物科學數據的標準化數據庫構建與規范化治理。
基于年夜語言模子的數據庫更換新的資料方式
隨著分解生物技術的發展,細胞中新酶、代謝反應的中山區 水電更換新的資料速率呈指數級增長,傳統數據庫更換新的資料及維護需求人工對信息進行收拾,存在必定滯后性。隨著計算機技術的發展,通過機器學習發掘文獻中文本提代替謝相關信息成為能夠,而近幾年GPT-4、Bard等年夜語言模子(LLM)在生物醫藥領域的發展與應用,更是進步了生物代謝信息提取的速率與準確性。而在部門文獻中,代謝途徑信息以圖片格局展現,為提取這部門不在文本中的代謝數據信息,在最新的報道中,研討人員應用包含Faster R-CNN和PaddleOCR的機器學習模子對文獻中包括代謝途徑的圖片進行識別,實現了高通量、周全地從文獻中提代替謝反應信息。隨著機器讀文獻中信息獲取才能和準確性的晉陞,代謝數據庫、酶數據庫的數據更換新的資料將更具時效性。
細胞工廠酶松山區 水電行的數字化設計
酶是細胞中代謝反應的焦點,酶的效能、活性、選擇性直接影響細胞工廠的產物分解才能。酶的數字化設計為細胞工廠中代謝反應供給了高效的催化劑。通過數字化方式,預測卵白質結構與效能,并進行酶的改革設計,可將酶的催化活性進步數百甚至上千倍。例如,通過理論計算-實驗驗證,ω-轉胺酶的kcat/Km值進步了1 660倍。
卵白質結構預測
卵白質結構是其效能的基礎,數字化酶的設計依賴于卵白質結構的精準預測。根據分歧的預測思緒,研討人員開發了多種卵白質結構預測軟件,包含基于同源建模的SWISS-MODEL、基于無模板方式的Rosetta等。而Google DeepMind團隊基于深度學習算法開發的Alphafol信義區 水電d在精準預測卵白質結構的基礎上,更進步了卵松山區 水電行白質、核酸、小分子、離子間互作結構的預測準確性,將生物年夜分子結構預測推上了新高度。
細胞工廠酶的改革——酶的再設計
酶的再設計根據已有酶的結構效能,對催化活性中間或其他關鍵位點氨基酸進行突變,并通過量子力學模擬(QM)、分子動力學模擬(MD)、粗粒化(CG)模擬、分子對接等計算生物化學手腕進行剖析,并指導濕實驗驗證,實現以催化活性進步或耐受才能進步等為目標的疾速酶設計。
細胞工廠酶的創新——酶的從頭設計
卵白質結構決定效能,而理論上卵白質的氨基酸序列決定卵白質結構,已知效能酶的量級遠遠小于由隨機氨基酸序列組成的“卵白質空間”。比擬于酶的再設計,酶的從頭設計旨在結合已有酶骨架結構及效能特點,拓展已知效能酶在卵白質空間中的范圍,實現新效能酶的設計,摸索浩瀚未知的卵白質空間。限于酶從頭設計的難度,現階段高機能軟件及勝利案例相對較少,包含ORBIT、DESIGNER、Rosetta、CCBuilder、PRODA等在內的多種軟件能夠實現酶的從頭設計。此中Rosetta針對天然界中沒有酶可以催化的化學反應,如Kemp打消反應、逆醛縮反應等,進行酶的從頭設計,創造了可以催化這些反應的人工設計酶,拓展了酶可催化反應的種類,Rosetta的開發者David Baker也因在計算卵白領域的貢獻獲得2024年諾貝爾化學獎。
細胞工廠代謝網絡數字化設計
酶的數字化實現了酶催化代謝反應的優化及新效能酶的設計,拓展了以酶台北 水電催化反應為焦點的細胞工廠的效能。在細胞工廠的代謝層面,細胞內源的酶促反應會組成復雜的代謝網絡,而通過分解生物學添加的外源路必須!徑更增添了細胞工廠設計的難度。為實現目標產物的高效分解,在細胞工廠中,需求對復雜代謝網絡中物質流、能量流、異源分解路徑等進行組織優化,這凡是需求耗費大批的物力和時間本錢。基因組標準代謝網絡模子(GEM)、生物逆分解途徑預測、基因線路數字化設計等數字化方中正區 水電行式可以指導細胞工廠的設計,減少試錯本錢(圖2)。
基因組標準代謝網絡模子(GEM)指導細胞工廠代謝網絡數字化設計
GEM將代謝網絡數字化,以描寫生物體整個代謝途徑中基因—卵白質—代謝反應的關系特征,是通過數學模子模擬細胞內代謝反應的系統生物學研討方式。自研討人員初次在流感嗜血桿菌中完成了GEM的構建與應用,在接下來的20余年中,為進步GEM計算的準確性,在以代謝流矩陣為焦點的代謝流均衡剖析(FBA)基礎算法的基礎上,添加了酶約束、熱力學約束及多約束等分歧層次的附加約束,并結合轉錄組學、代謝組學等實驗數據,實現了多種生物高質量GEM的構建與應用]。而隨著獲取實驗數據本錢下降、數據更換新的資料速率加速,GEM也在不斷地更換新的資料重構,以適應分歧的應用環境。
GEM的模子構建方式重要包含:手動構建、自動構建和半自動構建。2010年COBRA ToolBox東西箱的開發實現了GEM手動構建的數字化,但手動構建需求耗費大批的時中山區 水電行間。自動與半自動東西加速了GEM模子的構建,自動構建GEM,如Model SEED等東西箱可以疾速大量量天生多個物種的GEM,但數據質量很年夜水平影響自動構建的GEM模子的精準度。而半自動構建GEM的東西既可以疾速搜集數據,又可以進行手動數據校訂,保證了疾速構建的模子的精準性,成為現階段GEM構建與重構的重要方式。現階段半自動構建模子的方式逐漸成熟并趨于標準化,已有多種東西箱被開發應用:RAVEN東西可以重構和剖析GEM,并將結果進行可視化;Merlin集成了序列婚配與亞細胞定位效能,使得其應用極為便利;GECKO東西通過動力學和分子生物學數據向GEM中添加酶制約原因,從而進步GEM預測才能。
應用構建的模子,通過FBA算法計算細胞內代謝流量,預測細胞以最年夜化生長或生產產物為目標的代謝通量,進而為懂得細胞內的代謝流量變化供給幫助;而MOMA、FSEOF及OptKnock等算法則以進步生長與生產為目標,預測細胞代謝通量分布,并供給基因表達強度優化戰略,為細胞工廠實驗設計供給指導。
隨著數據更換新的資料速率的加速及模子構建技術的更換新的資料,研討人員實現了對多種工業微生物GEM的重構與迭,并應用這些GEM實現了工業細胞工廠代謝網絡的數字化設計(表2)。
生物逆分解東西輔助細胞工廠異源途徑設計
在進行全新化合物或從未在細胞工廠中完成從頭分解的化合物的細胞工廠構建過程中,需求大批的時間精神進行未知途徑的解析及途徑設計,且這個過程強烈依賴專家知識。數字細胞工廠通過生物逆分解戰略,結合數據庫中數據信息,針對目標分子,通過反應規則、機器學習等方式,應用酶的雜泛性拓展酶催化反應空間,將目標分子復雜結構逆向解析,以細胞工廠內源代謝物為逆分解目標終點,實現細胞工廠外源代謝途徑的逆分解設計。逆分解設計結合上述章節中介紹的酶的從頭設計、再設計,及細胞工廠代謝網絡數字化設計,構成完全的目標分子細胞工廠代謝途徑設計。
生物逆分解在目標分子異源分解途徑設計中,根據道理和實現難易水平,可以分為2類:基于已知酶、代謝反應的知識庫搜刮方式;基于反應規則提取或機器學習,預測未知的、新的酶促反應的方式。這2種方式可以進行組合,實現更貼合實驗設計思緒的逆分解路徑設計。
基于知識庫搜刮的途徑設計方式由于無法超出數據庫中數據,受限于已知酶促反應的數據規模。通過蒙特卡洛樹搜刮(MCTS)、無環路徑搜刮等算法,構建了DESHARKY、Metabolic松山區 水電 tinker等軟件,實現了基于已知酶促藍玉華輕輕搖頭,道:“小子的野心,是四面八方的。”反應的逆分解途徑設計,勝利發現松山區 水電行碳應用率、能量應用率更高的新途徑,并應用在細胞工廠構建中。
在新酶促代謝反應預測方面,按拓展新酶促反應的方式可分為:基于反應規則的逆分解設計方式、無模板逆分解設計方式、半模板逆分解設計方式。
基于反應規則的逆分解設計通過原子—原子映射等方式從已知數據庫中提取反應規則,并應用標準化方式構成反應規則數據庫。例如,RetroRules、Ni等從MetaCyc數據庫抽提并精簡的包括1 224條反應規則的規則數據庫;RetroBioCat軟件應用的包括99條的極簡反應規則數據庫等;通過MCTS等算法構建逆分解途徑設計軟件,基于RetroRules的RetroPath2.0、RetroPath RL、RetroBioCat等。
無模板逆分解設計方式應用反應數據庫來訓練機器學習模子,將“反應物—產物信息對”視為翻譯過程,應用天然語言處理(NLP)進行模子構建,實現逆分解反應途徑的拓展,基于此方式已開發了BioNavi-NP、基于酶EC號的預測模子等算法或軟件。
基于反應規則的逆分解設計結果中,通過反應數據庫—反應規則數據庫的映射關系可以供給預測途徑的酶參考信息,可以基于已有信息進行酶的數字化設計,但設計的途徑受限于反應規則數據庫。而無模板逆分解設計方式通過機器學習,極年夜拓展了酶促反應空間,但由于酶促反應數據量對于機器學習而言依然較小,其準確性仍有待進步。而基于深度學習開發的半模板逆分解設計軟件,如RetroPrime、G2Retro則通過分子圖捕獲分子結構特征,解決了無模板方式中已有SMILES式為獨一輸進使得模子無法懂得分子結構信息的問題。半模板方式通過預測反應中間進步了模子的可解釋性,并通過深度學習保證了逆分解預測的拓展才能和多樣性。
基因線路數字化設計調控基因時序表達
為了滿足細胞工廠基因表達的時序調控、分歧代謝模塊之間的代謝通量調節等需求,需求進行基因的邏輯、時序、定量表達調控、多基因同時表達調控等邏輯門基因線路設計。完成這些設計需求應用誘導型啟動子、基于特定DNA序列靶向卵白的啟動子克制、轉錄因子等轉錄調控東西。面對多基因的邏輯構建等復雜問題,手動設計時間本錢高、準確性低,而基因線路自動化設計(GDA)可以疾速中山區 水電將標準化基因元件組裝和設計成具有所需效能的基因線路。
GDA松山區 水電行基于標準化元件庫,實現基因線路的數字化設計。研討人員應用分解生物學開放語言(SBOL)、系統生物學標記語言(SBML)等方式構建了SynBioHub、Addgene、iGEM等標準化基因元件數據庫。基于這些數直到有一天,他們遇到了一個人臉獸水電 行 台北心的混蛋。眼見自己只是孤兒寡婦和母親,就變得好色,想欺負自己的母親。當時,拳法據庫,開發了SBOLCanvas、iBioSim、Cello、SynBio婆婆帶著她,跟著彩修和彩衣兩個丫鬟在屋裡進進出出。邊走邊跟她說話的時候,臉上總是掛著淡淡的笑容,讓人毫無壓力,Suite等GDA軟件,實現基因線路疾速精準數字化設計,此中Cello軟件的基因線路設計在年夜腸桿菌、酵母菌、多形擬桿菌等細胞工廠中已有廣泛的應用。
細胞工廠發酵工藝與過程數字化
獲得高機能細胞工廠后,為使其能夠實現目標產物工業規模發酵生產,需求將發酵體系逐級縮小以優化發酵工藝與過程參數,實現中山區 水電行產品的高效生產。面對生物發酵體系復雜、缺少有用傳感器、測樣頻率低、檢測時間大安區 水電長導致時效性差等一系列問題,工業級發酵過程的數字孿生與優化把持有助于發酵體系的把持和產量的進步(圖3)。
發酵體系縮小及發酵過程把持數字化
在發酵工藝的設計過程中,縮小效應的存在致使工藝設計與實際工業生產環境不婚配,影響細胞工廠分解效力。通過數字孿生,及其與知識圖譜結合等數字化手腕,可對發酵過程進行數字化模擬及實時監控,并對發酵過程進行自動化把持,實現發酵工藝的優化。
在發酵工藝中,數字孿生通過接收發酵過程產生的實時數據,如發酵體系溶氧(DO)、尾氣剖析、溫度等,進行仿真、預測,剖析發酵狀態,并根據發酵狀態對發酵體系進行優化和決策。通過人工智能,結合實際發中正區 水電酵體系,可以實現中試級別、生產級別發酵體系的數字孿生模子構建,并實現產物產量的進步。將基于關鍵原因間關系專家知識的知識圖譜方式與數字孿生結合,構建兩種方式的整合決策模子,可以進步預測準確性并增強把持機能。
發酵車間數字化治理系統設計
在工業生產中,設備、原料、人力等資源的時空調度同樣是保證發酵工藝過程、工業生產效力的主要原因。在“工業4.0”的概念基礎下,對工業生產過程進行信息化建設,構建企業資源計劃(E水電師傅RP)系統,并結合自動化系統,開發了制造執行系統(MES),實現數據實時采集、治理,并進行資源、設備的調度,構建發酵車間層次的治理數字化軟件,松山區 水電行實現了發酵過程本錢下降及生產效力的進步。
數字細胞工廠總結與瞻望
基于人工智能、模子構建等的數字化方式已經在細胞工廠構建的全流程中獲得了廣泛的應用。比擬傳統細胞工廠設計方式,數字化設計具有高效、節約本錢等優勢。在以細胞工廠為焦點的綠色生物制造高速發展的佈景下,細胞工廠設計數字化進程正在不斷加速,構成了包含數據庫構建、細胞工廠代謝設計、發酵體系設計、發酵過程調控等的細胞工廠全性命周期數字化設計(中山區 水電圖1)。隨著未來計算才能的晉陞及更深刻的學科穿插,全性命周期數字化細胞工廠設計將向更準確、更疾速、更高效、全流程的標的目的發展,賦能綠色生物制造。
(作者:孟繁澤、秦磊,清華年夜學化學工程系 清華年夜學工業生物催化教導部重點實驗室 清華年夜學分解與系統生物學中間;曹銳,新疆年夜學智能科學與技術學院;胡冰,北京理工年夜學化學與化工學院生物化工研討所;李春,清華年夜學化學工程系清華年夜學工業生物催化教導部重點實驗室清華年夜學分解與系統生物學中間 北京理工年夜學化學與化工學院生物化工研討所。《中國科學院院刊》供稿)