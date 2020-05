Cercetătorii din lumea întreagă au secvenţiat deja o mică parte a genomilor probelor de coronavirus, ajutând clinicienii şi oamenii de ştiinţă cu datele esenţiale pentru a începe lupta cu noul coronavirus.

Cercetătorii de la BGI Genomics au nevoie de seturi de date masive pentru a identifica diferenţele genetice. Lucrul la această scară generează de la terabiţi, la petabiţi de date - prea multe pentru a fi prelucrate fără analize la scară largă susţinute de calculatoare de înaltă performanţă (HPC).

Viteza de secvenţiere a genomului a crescut în pas cu accelerarea rapidă a puterii de calcul. Un proces care iniţial a durat mai mult de un deceniu şi a costat miliarde de euro pentru un singur genom poate fi acum executat în câteva ore pe grupuri de supercomputere cu arhitectură hardware optimizată. În timp ce cercetătorii subliniază că drumul către un vaccin este probabil foarte lung, o serie de instrumente poate accelera calendarul.

Cercetătorii de genomică din întreaga lume analizează, în general, un întreg genom în aproximativ 150 de ore - un salt fantastic, cu siguranţă, dar totuşi inegal cu viteza cerută de pandemia COVID-19.

Clusterul (grupul) de supercomputere e format din:

În genomică, puterea de procesare a unui supercoputer e definită de numărul de genomi compleţi pe care fiecare server îl poate procesa pe zi sau pe an. Potrivit estimărilor Lenovo, clusterul de computere donat poate procesa:

164238 genomi compleţi pe an (450 genomi compleţi pe zi)

7 milioane de exomi compleţi pe an (19K de exomi compleţi pe zi)

Clusterul de supercomputere lucrează împreună cu Secvenţiatorul T7. Secvenţiatorul oferă mijloacele pentru analiza genomică primară iar clusterul de computere suportul pentru analizele secundare şi terţiare.

Cercetător BGI Genomics care lucrează la secvenţitorul T7.

Analiză primară: Se prelevă o probă biologică (sânge, salivă etc.) şi se introduce în secvenţiator. Secvenţiatorul transformă informaţiile biologice într-o formă interpretabilă pentru sistemele informatice. În secvenţiator, ADN-ul este amplificat, rupt în bucăţi şi fiecare bucată este citită astfel încât să ştim secvenţa de nucleotide (codate prin litere) ADN (baze ADN) din fiecare fragment. Rezultatul analizei principale este o listă lungă de şiruri scurte (cunoscute şi sub numele de secvenţe citite), la fel ca un set de piese de puzzle.

Analiză secundară: Analiza Genomics în această etapă are loc într-un mediu de înaltă performanţă (HPC). Sunt reunite piesele de puzzle (secvenţiere citite) generate de secvenţiatorii din analiza primară şi sunt generate informaţii despre variaţia genetică a genomului respectiv. Acesta este de obicei cel mai lung pas: viteze de procesare pentru 1 genom întreg variază de la 1 oră la 150 ore, în funcţie de echipamentul utilizat şi dacă a fost optimizat pentru genomică sau nu.

Analiza terţiară: Această parte se întâmplă şi în interiorul unui mediu de cluster. În această etapă, cercetătorii, compară mai mulţi genomi pe baza unei trăsături de interes (de exemplu, comparând genomii persoanelor pozitive cu coronavirus care prezintă doar o tuse uşoară faţă de cele care duc la infecţii fatale), efectuează biostatistică, efectuează analize la nivel de populaţie etc.

Clusterul donat a fost configurat special pentru a accelera viteza cu care se analizează genomii. Câteva exemple de proiecte de cercetare COVID-19, care se bazează pe analiză genomică şi care pot beneficia direct de clusterul de supercomputere :