Cientistas conseguem armazenar Sistema Operacional de computador e filme curto em DNA
- Admin
- 3 de mar. de 2017
- 4 min de leitura

Em um estudo em Ciência, os pesquisadores Yaniv Erlich e Dina Zielinski descrevem uma nova técnica de codificação para maximizar a capacidade de armazenamento de dados de moléculas de DNA. Crédito: New York Genome Center
A humanidade pode em breve gerar mais dados do que os discos rígidos ou a fita magnética, isto porque para resolver o problema de limitação de armazenamento de informações os cientistas recorreram à antiga solução da natureza - o DNA.
Em um novo estudo na Science, uma dupla de pesquisadores da Universidade de Columbia e do Centro de Genoma de Nova York (NYGC) mostram que um algoritmo projetado para streaming de vídeo em um celular pode desbloquear o potencial de armazenamento do DNA quase completamente ao ser capaz de comprimir mais informações em seus quatro nucleotídeos básicos. Eles demonstraram que esta tecnologia também é extremamente confiável.
O DNA é um meio de armazenamento ideal porque é ultra-compacto e pode durar centenas de milhares de anos se mantido em um lugar fresco e seco, como demonstrado pela recente recuperação do DNA dos ossos de um ancestral humano de 430.000 anos de idade encontrado em uma caverna na Espanha.
"O DNA não se degradará ao longo do tempo, como cassetes e CDs, e não se tornará obsoleto - se isso acontecer, teremos problemas maiores", disse o co-autor do estudo, Yaniv Erlich, professor de ciência da computação da Columbia Engineering, Columbia Data Science Institute, e um membro do núcleo do NYGC.
Erlich e sua colega Dina Zielinski, cientista associada do NYGC, escolheram seis arquivos para codificar, ou escrever, em DNA: um sistema operacional completo de computador, um filme francês de 1895, "Chegada de um trem em La Ciotat", um cartão de presente de US $ 50 da Amazon, um vírus de computador, uma placa da Pioneer e um estudo de 1948 pelo teórico da informação Claude Shannon.
Eles comprimiram os arquivos em um arquivo mestre e, em seguida, dividiram os dados em sequências curtas de código binário composto de uns e zeros. Usando um algoritmo de correção de apagamento chamado códigos fonte, eles empacotaram aleatoriamente as strings em chamados droplets e mapearam os uns e zeros em cada droplet para as quatro bases nucleotídicas em DNA: A, G, C e T. A letra suprimida de algoritmo Combinações conhecidas para criar erros, e adicionou um código de barras para cada droplet para ajudar a montar os arquivos mais tarde.
No total, eles geraram uma lista digital de 72.000 fios de DNA, cada um com 200 bases de comprimento, e enviaram-na em um arquivo de texto para uma startup de síntese de DNA em São Francisco, Twist Bioscience, especializada em transformar dados digitais em dados biológicos. Duas semanas mais tarde, eles receberam um frasco contendo uma mancha de moléculas de DNA.
Para recuperar seus arquivos, eles usaram a tecnologia de sequenciamento moderna para ler as cadeias de DNA, seguido por software para traduzir o código genético de volta para binário. Eles recuperaram seus arquivos com zero erros, apontam os relatórios do estudo. (Nesta pequena demonstração, Erlich abre seu sistema operacional arquivado em uma máquina virtual e joga um jogo de Minesweeper para comemorar.)
Eles também demonstraram que um número praticamente ilimitado de cópias dos arquivos poderia ser criado com sua técnica de codificação, multiplicando sua amostra de DNA através da reação em cadeia da polimerase (PCR), e que essas cópias, e até cópias de suas cópias, e assim por diante, poderiam ser recuperado sem erros. Finalmente, os pesquisadores mostram que sua estratégia de codificação contém 215 petabytes de dados em um único grama de DNA - 100 vezes mais do que os métodos publicados pelos pesquisadores pioneiros George Church em Harvard e Nick Goldman e Ewan Birney no Instituto Europeu de Bioinformática. "Acreditamos que este é o dispositivo de armazenamento de dados de maior densidade já criado", disse Erlich.
A capacidade de armazenamento de dados de DNA é teoricamente limitada a dois dígitos binários para cada nucleotídeo, mas as restrições biológicas do próprio DNA e a necessidade de incluir informação redundante para remontar e ler os fragmentos mais tarde reduz a sua capacidade para 1,8 dígitos binários por base nucleotídica.
O insight da equipe foi aplicar códigos fonte, uma técnica Erlich lembrada de pós-graduação, para tornar o processo de leitura e escrita mais eficiente. Com sua técnica de Fonte de DNA, Erlich e Zielinski embalam uma média de 1,6 bits em cada nucleótido de base. Isso é, pelo menos, 60 por cento mais dados do que os métodos publicados anteriormente, e perto do limite de 1,8-bit.
O custo ainda permanece uma barreira. Os pesquisadores gastaram US $ 7.000 para sintetizar o DNA que usaram para arquivar seus 2 megabytes de dados e outros US $ 2.000 para lê-lo. Embora o preço do sequenciamento do DNA tenha caído exponencialmente, pode não haver a mesma demanda por síntese de DNA, diz Sri Kosuri, professor de bioquímica da UCLA que não estava envolvido no estudo. "Os investidores podem não estar dispostos a arriscar toneladas de dinheiro para reduzir custos", disse ele.
Mas o preço da síntese de DNA pode ser muito reduzido se moléculas de menor qualidade são produzidas e estratégias de codificação como DNA Fountain são usadas para corrigir erros moleculares, diz Erlich. "Podemos fazer mais do trabalho pesado no computador para tirar o fardo da codificação molecular intensiva em tempo", disse ele.
Referências Bilbiográficas:
Yaniv Erlich, Dina Zielinski. DNA Fountain enables a robust and efficient storage architecture. Science, 2017; 355 (6328): 950 DOI: 10.1126/science.aaj2038
Comments