Big Data — большие данные. Информационная революция.

Оригинал взят у в Большой информационный взрыв // Когда данных очень много, происходит революция. Технологическая.




Маленькие компьютеры, спрятанные в миллионах и миллиардах устройств, научились собирать немыслимо много информации — а теперь учатся извлекать из нее знания. Накопленные ими большие данные стали важнейшим инструментом науки, острием прогресса. А что будет, когда компьютеры станут еще меньше, а данных еще больше?


Что общего между картой автомобильных пробок, программой-переводчиком и персонализированной медициной? Все эти технологии основаны на анализе Big Data — больших данных. Карта пробок анализирует информацию о передвижении миллионов смартфонов в наших карманах. Переводчики типа Google Translate не понимают смысла слов, но зато используют статистику, собранную поисковиком со всего интернета, и выдают самый вероятный, то есть чаще всего встречающийся в похожих контекстах перевод. А персонализированная медицина основана на анализе данных о геноме пациента — и эти данные, если их собрать, будут очень и очень большие.


Их называют «новой нефтью», а еще ключевым трендом в новой технологической революции, экономике и науке. Но что представляют собой большие данные, насколько они велики и почему вызывают такой ажиотаж?


Самое популярное определение дал аналитик Дуг Лэни еще в 2001 году. Три V — Volume, Variety и Velocity: объем, разнообразие и скорость. Мы имеем дело с большими данными, когда информации много, она запутана или по крайней мере не структурирована и поступает очень быстро.


О больших данных заговорили, когда мир стал стремительно оцифровываться и информационные сети связали людей и устройства. Согласно сообщению агентства IDC, сейчас к «интернету вещей» подключено 15 миллиардов объектов, каждый из которых генерирует данные, сигнализируя о своем состоянии. Развитие коммуникаций позволило быстро передавать видео, а фрагменты информации все чаще стали измерять в гигабайтах и петабайтах.


«Не хватает информации!» — жаловались в прошлом веке герои фантастических романов. Никому из них и в голову не приходило воскликнуть: «Слишком много данных, я не справляюсь с их обработкой!»


Но дело все же не в зашкаливающем объеме данных, а в том, что люди поняли: это ценнейший ресурс, из которого можно извлечь нужную информацию — если, конечно, уметь. Впрочем, большие данные не только главное сырье новой эпохи, у них есть и темная сторона… С нее и начнем.


Лавина


«Информационная эпоха похожа на словесно несдержанного человека: он говорит все больше, а его слушают все меньше» — этот афоризм футуролога Нассима Талеба отлично описывает ситуацию тотальной нехватки времени на то, чтобы ознакомиться со всем важным и интересным. В индустриальную эпоху люди гонялись за информацией — теперь она гоняется за нами, заголовки новостных лент и френды в соцсетях бьются за внимание читателей.


«Не хватает информации!» — жаловались в прошлом веке герои фантастических романов. Никому из них и в голову не приходило воскликнуть: «Слишком много данных, я не справляюсь с их обработкой!»


Каждую минуту на YouTube выкладывают 100 часов видео. Наше внимание так перегружено, что ролик продолжительность больше минуты кажется невыносимо длинным. Интернет сделал всех писателями и фотографами, а вот читателей и зрителей найти все труднее. Из блогов мы мигрировали в соцсети, ведь средний пост в Facebook в пять раз короче, чем в ЖЖ. Синдром дефицита внимания неизбежен в мире, где внимание — самый востребованный ресурс. Мы мастера скакать по верхам — данных слишком много, чтобы было время их детально изучить. Чтение романов — невероятная роскошь, мы и почту-то не всегда успеваем прочитать. Мозг не готов к такому количеству информации.


Человек — существо гибкое, мы как-нибудь да приспособимся выживать под гнетом ежесекундно обновляемой информации, выработаем правила цифровой диеты и гигиены. Но проблема не только в нашем мозге. Компьютерам тоже негде хранить и обрабатывать данные — генерировать их они научились намного лучше, чем анализировать и выделять важное.


Мы окружаем себя все большим количеством компьютеров — например, портативными устройствами, следящими за здоровьем, — но они делают потоки данных только полноводней. Что делать с цифрами, день и ночь отсылаемыми всеми этими смартфонами, фитнес-браслетами и умными часами?


Увы, нам не под силу извлечь большую часть полезной информации из огромного массива данных, поступающих от промышленных сетей, или из медицинских записей большого числа людей, или из расшифрованного генома конкретного человека, не говоря уже о данных, продуцируемых мозгом.


Согласно исследованию Digital Universe агентства IDC, на сегодняшний день мы в принципе способны обработать только 22% создаваемой нами же информации, но в реальности обрабатываем лишь 5%.


Выход один: научить машины анализировать данные так же хорошо, как они их генерируют. Если они не поднатореют в извлечении смысла из сырых данных по мере их сбора, информационная лавина погребет под собой цивилизацию.





1998 г. — впервые использован термин Big Data (в презентации Джона Мэши, руководителя исследовательских работ в компании Silicon Graphics). Распространения термин не получил.


2008 г.— словосочетание Big Data обретает популярность в академической среде после выхода специального номера журнала Nature на тему: «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?»


2009 г. — термин получает широкое распространение в деловой прессе.


2010 г. — появляются первые коммерческие программные продукты для анализа больших данных.


2011 г. — бум больших данных, компания Gartner объявляет их трендом номер два в информационно-технологической инфраструктуре после виртуализации.


2013 г. — большие данные как академический предмет изучаются в новых вузовских программах по науке о данных.



Эволюция мыслящих машин


Машины быстро умнеют. За последние несколько лет мы привыкли к словосочетаниям «умные часы», «умный дом», «умный город». Эти системы «умные» в том смысле, что умеют анализировать большие данные и менять свое поведение в зависимости от результатов анализа.


Когда-то фантастам и ученым думалось, что сила машины в том, что она мыслит логичнее человека, но оказалось, ее преимущество в другом: она гораздо быстрее обрабатывает большие объемы информации.


Вот только привычные нам компьютеры не слишком хорошо подходят для этой цели. Они и вправду могут многое там, где дело касается перебора большого количества вариантов (как в шахматах), но наивные надежды, что искусственный разум удастся создать просто увеличив быстродействие, давно рухнули. Программы-переводчики, которыми пользуется рядовой потребитель, делают свое дело так же беспомощно, как и двадцать лет назад, текстовые редакторы и браузеры тоже принципиально не изменились.


От хорошего компьютера теперь требуется прежде всего умение распознавать образы и находить закономерности. Классический пример: начинавший когда-то как победитель викторин, понимавший вопросы и находивший ответы суперкомпьютер Watson переквалифицировался в медика и ставит диагнозы лучше врачей, анализируя данные медицинской статистики. Такие компьютеры не только диагностируют болезни, но и делают научные открытия.


Калифорнийский суперкомпьютер KnIT за два часа прочитал около 100 тысяч научных статей и в результате открыл несколько новых ферментов. Другой компьютер, из Манчестера, открыл новое лекарство от малярии.


Машины типа Watson больше не привязаны к своему кремниевому телу — их «души» переселилась в интернет, откуда могут получить доступ к любым требуемым физическим мощностям, ко всей виртуальной памяти человечества. Чтобы облегчить им доступ к информации, Google создает базу данных Knowledge Vault, которая должна вобрать в себя все знания человечества и будет продолжать наполняться уже без нашего участия.


Что произойдет, когда умные машины научатся полноценно пользоваться памятью человечества, делать выводы из своих и чужих ошибок, программировать себя? Кажется вполне вероятным, что они объединятся в некий единый компьютерный сверхразум.


Самообучающиеся компьютеры называют когнитивными, а те из них, что имитируют функции человеческого мозга, — нейроморфными. Их пытаются создавать, например, на основе мемристоров — электронных аналогов синапсов, соединений между нейронами мозга (каждый нейрон связан с остальными тысячами синапсов). Подобно синапсам, мемристоры меняются под влиянием импульсов, проходящих через них. Чем больше импульсов передается от одного мемристора другому, тем лучше «ассоциативная» связь между ними. Чтобы работать как мозг, они должны уметь образовывать новые связи (в этом суть обучения на нейронном уровне).


Скрытые связи


«Кто владеет информацией, тот владеет миром», — говаривал Натан Ротшильд, который сумел обогатиться на торговле ценными бумагами благодаря тому, что раньше других узнал о поражении Наполеона при Ватерлоо. А какую пользу могут принести большие данные?


Чтобы ответить на этот вопрос, вначале надо научиться извлекать из них информацию. И первыми этим умением пришлось овладевать физикам: при столкновении частиц в коллайдере к ним поступает огромное количество данных — до 40 терабайт в секунду, если говорить об экспериментах в ЦЕРНе. Из миллиардов столкновений частиц нужно выделить десяток-другой «подозрительных», в которых могло родиться что-то необычное.


Открытия новых частиц вроде бозона Хиггса происходят благодаря анализу больших данных. В других естественных науках, от астрономии до молекулярной биологии, творится то же самое: все самое интересное, что мы узнали за последние годы, связано с расшифровкой и сравнением генетических данных людей и других организмов.


По сути, и все крупнейшие изобретения последнего времени тоже связаны не с физическими свойствами объектов, а с их информационной начинкой, которая делает их «умными». Сегодня рынок технологий и сервисов для анализа больших данных составляет 14 миллиардов долларов, и каждый год он растет почти на треть, то есть в 6 раз быстрее IT-рынка в целом. Что неудивительно, ведь на основании такого анализа принимаются бизнес-решения в крупнейших компаниях.


— У нас 17 миллионов клиентов, и нам необходимо проанализировать огромный массив информации, чтобы сделать прогнозы, — объясняет Маэль Гавэ, генеральный директор интернет-магазина Ozon. — Благодаря алгоритмам, дающим клиентам индивидуальные рекомендации при покупке, наши продажи увеличились на 25%!


Отсюда и сравнение с нефтью.





Врачи и данные генома // Расшифровать дешевле, чем хранить


Технологии исследования генома стали доступны не только ученым, но и врачам. Но как извлечь из массива генетических данных информацию, нужную для диагностики и лечения заболеваний? Рассказывает Алла Лапидус, замдиректора Лаборатории алгоритмической биологии Академического университета РАН, созданной в 2011 году в рамках программы мегагрантов:


— Наша лаборатория разрабатывает программы, с помощью которых врачи и биологи будут анализировать геном. Такие программы сейчас очень нужны, потому что количество производимых данных просто невероятно. Расшифровка только той небольшой части генома, которая кодирует белки, дает полтерабайта данных. Представляете, какой объем для хранения данных нужен клиническому центру, в котором наблюдаются 3–4 тысячи пациентов?!


В результате сегодня расшифровать ДНК куда дешевле, чем хранить эту информацию. Не анализировать, а просто хранить! А ведь для комплексного анализа организма нужен не только геном пациента, но и его транскриптом — совокупность РНК, а также протеом — все белки, которые вырабатываются в разных частях организма.


Врачам зачастую нечем обрабатывать эти данные, что очень тормозит развитие персонализированной медицины. Есть кое-какие программы, созданные в университетах, но медики ими не пользуются: слишком сложно, требуются специальные математические знания. Мне один врач так и сказал: «Ничего из этого я делать не буду, пока не появится кнопка, на которую я нажму — и в окошке появится идентификационный номер моего пациента и каким лекарством в какой дозировке его лечить».


Данные с человеческим лицом


Впрочем, большие данные дают ключ не только к информации о мире — анализируя их, человек может узнать немало интересного о самом себе. Это называется персональной аналитикой.


Портативные устройства способны подсчитать все наши шаги, каждый вздох и биение сердца. Они записывают наши координаты, могут определить, сколько времени в день мы работаем и сколько спим, с кем разговариваем... Искусственный интеллект такого «персонального ассистента» может знать о нас гораздо больше, чем мы сами.


Немало нового можно узнать о своем поведении в соцсетях и отношениях с виртуальными друзьями от программ вроде Wolfram Alpha Personal Analytics, доступных каждому желающему. Впрочем, ими пользуются даже ученые. К примеру, они выяснили, что чаще всего мы делаем перепосты гневных сообщений, но сами, как правило, оставляем позитивные.


Программа, созданная в Кембриджском университете при участии Microsoft, по лайкам определяет политические симпатии, конфессиональную и расовую принадлежность, а также многие другие характеристики пользователей Facebook: алгоритм отличает белых от негров с точностью 95%, республиканцев от демократов — 85%, мусульман от христиан — 82%.



Сегодня крупнейшие изобретения связаны не с физическими свойствами объектов, а с их информационной начинкой.



Анализ больших данных оказался ценнейшим инструментом для гуманитариев — они ведь всегда мечтали об объективных, точных, как в естественных науках, методах исследования. Возникла целая область — digital humanities, цифровая гуманитаристика. С помощью инструментов Google филологи и историки анализируют тексты и частоту использования слов в разные времена и в разных контекстах.


Данные для Большого Брата


Но все это только начало. Вполне вероятно, что уже через несколько лет мы будем постоянно находиться под прицелом множества крохотных камер, появятся системы защиты от них, но будут и такие устройства, от которых обычный человек спрятаться не сможет.


От полной прозрачности нашу жизнь пока спасает то, что машины не лучшим образом обрабатывают большие данные. Но специальные программы, предназначенные для изучения людей, все чаще знают о нас больше, чем мы бы хотели.


Вот история, уже ставшая классической. В сети магазинов Target (дело было в Америке) ввели анализ данных кредитных и скидочных карт покупателей для персонализированной рекламы, и вскоре разразился скандал. Разъяренный отец двенадцатилетней школьницы призвал к ответу руководство магазина, засыпавшего его дочь буклетами с предложениями для беременных. Менеджеры пытались отделаться извинениями, но через несколько дней ошеломленный отец извинился сам — выяснилось, что девочка действительно беременна, хотя на момент жалобы об этом не знала даже она сама. А программа заметила изменения в покупках, характерные для беременных.


Впрочем, реклама — довольно невинная цель. Программы, анализирующие персональные данные, используются и в гораздо менее безобидных контекстах — при решении вопроса о выдаче кредита и приеме на работу, проверке политической благонадежности и поиске потенциальных террористов.





А что будет, когда машины начнут разбираться в людях лучше нас самих? Вот, например, программа, разработанная в 2014 году в Университете Огайо, по выражению лица может с точностью 96,9% распознать шесть базовых эмоций: счастье, печаль, страх, гнев, удивление и отвращение.


Похоже, будущий аналог Google Glass будет на лету определять, врет собеседник или говорит правду. Но ведь это немыслимое вторжение в личное пространство другого человека, все отношения в таком чересчур прозрачном мире пришлось бы строить по-новому…


Прощание с иллюзиями


Страстное увлечение какой-то идеей всегда сменяется разочарованием в ней. В мире науки и прогресса мода непостоянна, как и везде. Аналитики считают, что пик ожиданий, связанных с большими данными, миновал. При этом используем мы их в минимальном объеме.


«Большие данные похожи на подростковый секс: все подростки говорят о нем, но никто не знает, как им заниматься. Все думают, что остальные это делают, и потому заявляют, что тоже делают это», — написал в Facebook профессор MIT Дэн Ариели. Его слова хорошо дополняет старый афоризм, переиначенный айтишниками: «Раньше было три вида лжи: ложь, наглая ложь и статистика. Теперь у нас есть большие данные».


Конечно, машина может делать нечто, напоминающее принятие решений. Но компьютер не понимает смысла анализируемых событий, для него это лишь ряды цифр. Очень часто анализ больших данных сводится к поиску корреляций — связей между двумя переменными, показывающими, что они одинаково меняются во времени или пространстве. Но такая связь вовсе не означает наличие причинной зависимости. Допустим, число церквей в городах в целом коррелирует с количеством домов терпимости. Но не потому, грешники больше каются или эти параметры еще как-то дополняют друг друга, а потому, что оба они зависят от третьего — населения города.


Когда анализируется много переменных по разным параметрам, какие-то из них коррелируют случайно.


— Многие ученые пытаются просто взять данные и начать их анализировать, не имея модели объекта или процесса, который эти данные породил, — рассказывает нобелевский лауреат Майкл Левитт. — Ну, например, сейчас много говорят об анализе больших данных в шопинге: из информации о том, кто что покупает, пытаются сделать выводы, кто что будет покупать в перспективе. Но тут недостаточно корреляций между цепочками цифр — нужно понять психологию покупателей, построить модель их поведения. Я думаю, что хороший анализ данных требует создания модели поведения изучаемого объекта. Но это гораздо сложней, хороших моделей мало.


Все-таки даже самые когнитивные компьютеры лишь дополняют человеческий интеллект, но заменить его не могут — по крайней мере пока.