DNA: la solution ultime de stockage de données

Dans un monde inondé de données, déterminer où et comment les stocker efficacement et à moindre coût devient un problème plus important chaque jour. L’une des solutions les plus exotiques pourrait s’avérer être l’une des meilleures: l’archivage d’informations dans des molécules d’ADN.

La méthode de stockage frigorifique à long terme en vigueur, qui date des années 1950, enregistre les données sur des rouleaux de bande magnétique de la taille d’une pizza. En comparaison, le stockage de l’ADN est potentiellement moins coûteux, plus économe en énergie et plus durable. Des études montrent que l’ADN correctement encapsulé avec un sel reste stable pendant des décennies à température ambiante et devrait durer beaucoup plus longtemps dans les environs contrôlés d’un centre de données. L’ADN ne nécessite pas de maintenance et les fichiers stockés dans l’ADN sont facilement copiés pour un coût négligeable.

Mieux encore, l’ADN peut archiver une quantité impressionnante d’informations dans un volume presque inconcevablement petit. Considérez ceci: l’humanité générera environ 33 zettaoctets de données d’ici 2025, soit 3,3 suivis de 22 zéros. Le stockage d’ADN peut rassembler toutes ces informations dans une balle de ping-pong, avec de l’espace à revendre. Les 74 millions de millions d’octets d’informations de la Bibliothèque du Congrès pourraient être entassés dans une archive ADN de la taille d’une graine de pavot – 6 000 fois plus. Divisez la graine en deux et vous pourrez stocker toutes les données de Facebook.

Science fiction? À peine. La technologie de stockage d’ADN existe aujourd’hui, mais pour la rendre viable, les chercheurs doivent surmonter quelques obstacles technologiques décourageants autour de l’intégration de différentes technologies. Dans le cadre d’une collaboration majeure pour faire ce travail, notre équipe du Los Alamos National Laboratory a développé une technologie clé permettant le stockage moléculaire. Notre logiciel, l’Adaptive DNA Storage Codex (ADS Codex), traduit les fichiers de données du langage binaire des zéros et ceux que les ordinateurs comprennent dans le code à quatre lettres que comprend la biologie.

Lire aussi  Rolls-Royce obtient un financement pour le réacteur nucléaire de la base lunaire | Actualités scientifiques et techniques

Le Codex ADS est un élément clé du programme de stockage des informations moléculaires (MIST) de l’activité de projets de recherche avancée sur l’intelligence (IARPA). MIST cherche à offrir un stockage moins cher, plus gros et plus durable aux opérations de Big Data au sein du gouvernement et du secteur privé, avec pour objectif à court terme d’écrire un téraoctet – un billion d’octets – et de lire 10 téraoctets en 24 heures pour un coût de 1 000 $.

DU CODE INFORMATIQUE AU CODE GÉNÉTIQUE

Lorsque la plupart des gens pensent à l’ADN, ils pensent à la vie, pas aux ordinateurs. Mais l’ADN est lui-même un code à quatre lettres pour transmettre des informations sur un organisme. Les molécules d’ADN sont constituées de quatre types de bases, ou nucléotides, chacun identifié par une lettre: l’adénine (A), la thymine (T), la guanine (G) et la cytosine (C). Ils sont à la base de tout code ADN, fournissant le manuel d’instructions pour la construction de tout être vivant sur terre.

Technologie assez bien comprise, la synthèse d’ADN a été largement utilisée dans la médecine, les produits pharmaceutiques et le développement de biocarburants, pour ne citer que quelques applications. La technique organise les bases en divers arrangements indiqués par des séquences spécifiques de A, C, G et T. Ces bases s’enroulent en une chaîne torsadée l’une autour de l’autre – la double hélice familière – pour former la molécule. La disposition de ces lettres en séquences crée un code qui indique à un organisme comment se former.

L’ensemble complet de molécules d’ADN constitue le génome – le plan directeur de votre corps. En synthétisant des molécules d’ADN – en les fabriquant à partir de rien – les chercheurs ont découvert qu’ils pouvaient spécifier ou écrire de longues chaînes des lettres A, C, G et T, puis relire ces séquences. Le processus est analogue à la façon dont un ordinateur stocke des informations binaires. À partir de là, ce fut une courte étape conceptuelle pour encoder un fichier informatique binaire en une molécule

Lire aussi  Rencontrez Homo bodoensis, nouvelle espèce d'ancêtre humain

La méthode a fait ses preuves, mais la lecture et l’écriture des fichiers codés en ADN prennent actuellement beaucoup de temps. L’ajout d’une seule base à l’ADN prend environ une seconde. L’écriture d’un fichier d’archive à ce rythme pourrait prendre des décennies, mais la recherche développe des méthodes plus rapides, y compris des opérations massivement parallèles qui écrivent sur de nombreuses molécules à la fois.

RIEN DE PERDU EN TRADUCTION

ADS Codex indique exactement comment traduire les zéros et les uns en séquences de quatre combinaisons de lettres de A, C, G et T. Le Codex gère également le décodage en binaire. L’ADN peut être synthétisé par plusieurs méthodes et l’ADS Codex peut toutes les accueillir.

Malheureusement, par rapport aux systèmes numériques traditionnels, les taux d’erreur lors de l’écriture dans le stockage moléculaire avec synthèse d’ADN sont très élevés. Ces erreurs proviennent d’une source différente de celle du monde numérique, ce qui les rend plus difficiles à corriger. Sur un disque dur numérique, des erreurs binaires se produisent lorsqu’un zéro passe à un un, ou vice versa. Avec l’ADN, les problèmes proviennent d’erreurs d’insertion et de suppression. Par exemple, vous pouvez écrire ACGT, mais parfois vous essayez d’écrire A, et rien n’apparaît, donc la séquence de lettres se décale vers la gauche, ou elle tape AAA.

Les codes de correction d’erreur normaux ne fonctionnent pas bien avec ce type de problème, c’est pourquoi ADS Codex ajoute des codes de détection d’erreur qui valident les données. Lorsque le logiciel convertit les données en binaire, il teste pour voir que les codes correspondent. Si ce n’est pas le cas, il supprime ou ajoute des bases – des lettres – jusqu’à ce que la vérification réussisse.

ÉCHELLE INTELLIGENTE

Nous avons terminé la version 1.0 de l’ADS Codex et, à la fin de cette année, nous prévoyons de l’utiliser pour évaluer les systèmes de stockage et de récupération développés par les autres équipes du MIST. Le travail correspond bien à l’histoire de Los Alamos de nouveaux développements pionniers dans le domaine de l’informatique dans le cadre de notre mission de sécurité nationale. Depuis les années 1940, à la suite de ces progrès informatiques, nous avons accumulé certains des plus anciens et des plus grands magasins de données uniquement numériques. Il a toujours une valeur énorme. Parce que nous conservons les données pour toujours, nous sommes à la pointe de la technologie depuis longtemps lorsqu’il s’agit de trouver une solution de stockage à froid, mais nous ne sommes pas seuls.

Lire aussi  Le changement climatique pourrait augmenter le risque d'incendies de forêt de 50 % d'ici la fin du siècle

Toutes les données du monde – toutes vos photos numériques et vos tweets; tous les records du secteur financier mondial; toutes ces images satellites des terres cultivées, des mouvements de troupes et de la fonte des glaciers; toutes les simulations qui sous-tendent tant de science moderne; et bien plus encore – doivent aller quelque part. Le «cloud» n’est pas du tout un cloud. Ce sont des centres de données numériques dans d’immenses entrepôts qui consomment de grandes quantités d’électricité pour stocker (et conserver au frais) des milliards de millions d’octets. Coûtant des milliards de dollars à construire, à alimenter et à faire fonctionner, ces centres de données peuvent avoir du mal à rester viables car le besoin de stockage de données continue de croître de manière exponentielle.

L’ADN est très prometteur pour satisfaire l’appétit vorace du monde pour le stockage de données. La technologie nécessite de nouveaux outils et de nouvelles façons d’appliquer des outils familiers. Mais ne soyez pas surpris si un jour les archives les plus précieuses du monde trouvent une nouvelle maison dans une collection de molécules de la taille d’une graine de pavot.

Le financement de l’ADS Codex a été fourni par l’Activité des projets de recherche avancée sur le renseignement (IARPA), une agence de recherche au sein du Bureau du directeur du renseignement national.

Ceci est un article d’opinion et d’analyse.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick