Банки ДНК оказались самым быстро растущим сегментом сети

10:22, 08.07.15

3 мин.

Подпишитесь на нас в Google

Каждые семь-восемь месяцев объем новых генетических данных удваивается

Об этот сообщает РИА Новости со ссылкой на журнал PLoS One.

Самым динамичным и быстро растущим сегментом глобальной сети в ближайшие 10-15 лет будут не видеохостинги или социальные сети, а банки геномных данных и связанные с ними порталы.

"По мере дальнейшего улучшения технологий анализа ДНК и уменьшения цены этой процедуры, мы ожидаем настоящий взрыв в распространении технологий секвенирования в повседневной жизни и связанный с этим информационный "потоп". Единственная возможность пережить его – улучшить компьютерную инфраструктуру, отвечающую за обработку геномных данных", — заявил Джин Робинсон (Gene Robinson) из университета штата Иллинойс в Урбане (США).

Видео дня

Робинсон, генетик по профессии, и несколько математиков и программистов решили оценить масштабы этого взрыва, сравнив то, как развивались несколько самых динамичных сегментов глобальной сети в последние годы – социальные сети, видеохостинги и распределенные системы обработки научной информации.

В качестве первых двух выступали всем знакомые порталы – сервис микроблогов Twitter и видеохостинг Youtube, а в роли третьего выступал ряд проектов в астрономии, физике элементарных частиц и молекулярной биологии.

Вопреки ожиданиям ученых, больше всего за последние годы выросли объемы обрабатываемой, передаваемой и хранимой информации не в соцсетях и видеохостингах, а в геномных банках данных.

Для сравнения, первые вырабатывают примерно по 10-100 петабайт (миллионов гигабайт) "оригинального контента" каждый год, что может показаться очень большой цифрой. Геномные базы данных пополняются сопоставимым образом, однако скорость их роста в разы больше – каждые семь-восемь месяцев объем новых генетических данных удваивается.

Благодаря этому, буквально через десять лет интернет-банки геномной информации будут "толстеть" на несколько эксабайт (тысяч петабайт) в год, что породит огромное количество проблем с хранением и обработкой подобной массы данных. Большая часть из них будет усилена тем, что биологи, в отличие от физиков и астрономов, еще не выработали единых стандартов обработки, сжатия и архивирования геномной информации.

Как объясняют авторы статьи, генетики не смогли создать алгоритма, который позволил бы им "выкидывать" общие и малозначимые фрагменты человеческой ДНК. Благодаря этому хранение геномов даже членов "золотого миллиарда" потребует накопителей емкостью в несколько эксабайт, что является большой проблемой сегодня и будет затруднительно и через 10 лет.

"Очень долго люди использовали прилагательное "астрономический" для описания тех вещей, которые обладают действительно гигантскими масштабами, объемами или размерами. Раскрыв невероятную скорость прироста геномных данных, я и коллеги теперь предлагаем называть подобные вещи не "астрономическими", а "геномными", — заключает Майкл Шатц (Michael Schatz) из Лаборатории в Колд-Спринг-Харбор (США).

Помогите проектуПоддержите нас

Новости партнеров