В мире, переживающем большой информационный взрыв, анализ данных стал центральной научной дисциплиной, объединяющей самые разные отрасли науки и практики. О том, какое будущее несёт прогресс в области анализа Больших данных, мы поговорили с академиком Александром Кулешовым, директором Института проблем передачи информации РАН, который был основан отцами советской кибернетики, а сегодня создаёт для всего мира самые передовые инструменты анализа информации.
Мы встретились в Олимпийской деревне — на этот раз туда со всего мира съехались не спортсмены, а математики, биологи, физики и другие учёные, вроде бы говорящие на совсем разных языках и думающие о совсем разных проблемах. Они приехали обменяться идеями на конференцию «Информационные технологии и системы», которую ежегодно проводит Институт проблем передачи информации им. А.А. Харкевича РАН (ИППИ).
Здесь говорили об элементарных частицах, человеческом старении, молекулярной эволюции, нейроинтерфейсах — и разнопрофильным специалистам удавалось понять друг друга, ведь, по сути, речь всегда шла о том, как придать смысл бесконечным рядам цифр, как добыть из них полезную информацию. Пока бурлили идеи и кипели споры, Александр Кулешов как радушный хозяин носился среди гостей, стараясь ни про кого не забыть. А в последний день конференции у него нашлось время и для «Кота Шрёдингера».
[Кот Шрёдингера] Меня удивило, что на конференции про информационные технологии и системы, которую устраивает математический институт, половина участников — биологи.
[Александр Кулешов] А ИППИ никогда и не был математическим институтом. Это единственное научное учреждение в Советском Союзе, которое с самого начала было создано не как узкопрофильное, а как мультидисциплинарное.
Cоветский математик, один из создателей теории вероятностей, признан одним из крупнейших математиков ХХ века. Называл себя кибернетиком, работал в диалоге с Норбертом Винером. Воспитал многих других блестящих математиков.
Математик, работал в СССР и США, основатель крупной научной школы, один из создателей биокибернетики и медицинской кибернетики.
Советский математик, академик АН СССР. В начале 50-х годов, объединив несколько разрозненных групп, создал и возглавил Институт проблем передачи информации. Сформулировал «закон Харкевича»: «Количество информации растёт по меньшей мере пропорционально квадрату промышленного потенциала страны».
Он возник, когда встала острая необходимость решать проблемы теории кодирования. Создателями института были крупнейшие математики и, я бы сказал, настоящие визионеры: Колмогоров, Гельфанд, Харкевич. Они понимали, что передача информации в системах связи и в живых системах — вещи очень сильно пересекающиеся и, вероятно, подчиняющиеся общим законам.
Сейчас все науки связывает математика, обработка данных. Наука о данных — это то, что пронизывает все направления деятельности нашего института, начиная с биоинформатики и заканчивая телекоммуникациями, живыми системами в самом общем смысле, компьютерной лингвистикой. Математика стала общим фундаментом, на котором только и можно строить мультидисциплинарное соединение. Поэтому у нас мультидисциплинарность не насаждается извне, как в институтах, где создают десять разных подразделений. Это глупости — люди там занимаются своими делами и не особо обращают внимание на соседние подразделения.
[КШ] А как у вас всё устроено?
[АК] У нас биологи-экспериментаторы приходят на математический семинар, рассказывают про свои проблемы, и часто оказывается, что для нас, математиков, это знакомые задачи и решаются они известными способами. То, что вы видите на конференции, и есть конвергенция наук. Очень полезно слушать про чужие задачи. Поэтому я и стараюсь сводить в институте специалистов разного профиля. Кому-то, конечно, неохота вникать в непонятные чужие проблемы. Но приходится. И чёрт его знает, что ему в голову взбредёт, когда он всё это услышит! Конвергенция Взаимопроникновение наук через математику — это действительно мощнейший инструмент.
Идея конвергенции с самого начала отличала наш институт. У нас работал великий физиолог Бернштейн, создавший теорию построения движений, Гурфинкель, известный во всём мире как создатель теории локомоций, психолог Ярбус, первым предложивший отслеживать движения глаз…
[КШ] Но почему здесь так много именно биологов, а не финансовых аналитиков, например?
[АК] При всём уважении финансовую математику я в институте развивать не буду. У меня было много предложений — но не буду. Из принципиальных соображений. Финансовая математика перетягивает огромное количество ресурсов, огромное количество умных людей, которые не создают ничего. Они просто перераспределяют. Я к этому не хочу быть причастным.
[КШ] Но физика, химия! Это же области, где анализ данных, казалось бы, вовсю применяется. А всё-таки здесь больше биологов.
[АК] Сегодня физика и математика на высоком уровне практически не различаются. Человека, разрабатывающего теорию струн, кто-то называет физиком, а кто-то математиком.
Но самые интересные вещи сейчас творятся в биологии. Недавно я своими глазами видел парализованного наркодилера, которому полицейские перебили шейный позвонок. Фантастическая вещь: при помощи нейроинтерфейса он управляет механическими руками — может, например, пить кофе. Это, как сказал бы астронавт Армстронг, маленький шаг для человека и гигантский — для человечества. Но прогресс нейронауки невозможен без анализа данных. Движения этих рук-манипуляторов очень разные, нужен математический аппарат, чтобы найти в них инварианты, что-то общее и устойчивое.
Если бы мне сейчас было 17 лет, я бы пошёл в нейронауку. А поскребите работающих у нас биологов — 99% из них окажутся переучившимися математиками или физиками. Мы сейчас очень активно всем этим занимаемся.
[КШ] Математика всегда связывала прочие области знаний, да и вообще — любая наука становилась наукой в полном смысле слова, лишь когда туда приходила математика. Но сейчас, кажется, что-то принципиально новое происходит.
[АК] Конечно. Появилась колоссальная вещь, которая по-настоящему связала все науки — анализ данных.
В 1950-х, во времена Брэдбери, Азимова и фантастических рассказов о роботах казалось, что мы вот-вот коснёмся этого всего. Что будет искусственный интеллект, человекоподобные роботы-помощники. Но оказалось, всё не так просто, теория вырвалась далеко вперёд по сравнению с технологиями и в конце концов стала неинтересной, заглохла — лет на двадцать. Не было технологической поддержки, технологий хранения, передачи и обработки информации. И не было такого количества данных.
Я всё время говорю молодёжи: ребята, читайте старые статьи. Это собрание огромного количества новых идей. Всё забыто, люди начинают заново повторять идеи, которые были высказаны ещё в шестидесятые годы.
Но всё же технология развивалась со страшной скоростью, на моих глазах произошёл невероятный скачок. Пожалуйста, в мире уже установлено больше миллиарда камер — казалось бы, всех террористов можно выловить в аэропортах на раз. Но нет алгоритмов, которые это сделают. Все нужные технологии появились, а алгоритмов нет.
[КШ] Теперь практика обогнала теорию?
[АК] Да, возникла обратная ситуация: раньше был разрыв между теорией и практикой в пользу теории, а сейчас — в пользу практики. Технологии на порядки превосходят математические методы обработки данных.
Оказалось, что все науки и, главное, огромное количество практических задач связаны с обработкой массивов данных таких размеров, о которых мы даже и подумать не могли в былые времена. И это вызвало колоссальный прилив интереса математического сообщества к этим задачам.
200
Столько параметров записывается во время полёта с каждого двигателя самолета Airbus. Анализируя эти данные, программа, созданная в ИППИ, определяет, каким двигателям нужно техобслуживание.
Сейчас в математике анализ данных — это тема номер один. Он невероятно востребован на практике, он нужен всем. Нашими инструментами обработки данных пользуются такие компании, как Airbus Group, Porsche, Mitsubishi, Toyota, Michelin, Gas de France, Европейское космическое агентство, AREVA (французский Росатом. — «КШ»). Даже в сельском хозяйстве! Вторым по объёму после Airbus потребителем продуктов, разрабатываемых в нашем институте, является Limagrain, одна из крупнейших в мире компаний по селекции семян. Оказывается, чтобы производить чистые семена, необходима очень хорошая математика.
Вы не представляете, что такое современное сельскохозяйственное производство! В животноводстве, чтобы попасть к племенной свинье, надо пройти четыре зоны очистки, дважды принять душ. Там свиньям делают томографию, а софт, который мы производим, эти данные анализирует — всё это нужно для того, чтобы получить оптимальное соотношение мяса и жира. Представляете, что такое засунуть свинью в томограф? «Мадам, не двигайтесь!» Она же должна там минут пятнадцать простоять спокойно. Мы часто даже не понимаем уровень своей отсталости, а он безумный в таких вот областях.
«Нейросети способны обучаться, как обучается речи ребёнок. Мы вводим в нейросеть информацию, она выдаёт результат, но как она его получила, мы не понимаем».
Для математика что самолёты, что семена, что свиньи — это в некотором смысле одно и то же. У тебя есть чёрный ящик. Ты не знаешь, что в нём происходит. Но у тебя есть входные данные, выходные данные и некоторые ручки, поворачивая которые ты можешь вытянуть результат. Тебе нужно найти правильное положение ручек, чтобы результат был наилучшим. И в этом смысле вывод новых пород семян или получение новой формы крыла — это одна и та же задача. Вот этим мы, собственно, и занимаемся.
[КШ] Что такое информация с точки зрения математики — можете на пальцах объяснить?
[АК] Я не буду морочить вам голову определением Колмогорова, определением Шеннона и так далее. Давайте исходить из другого: в бытовом смысле сегодня любая информация цифровизована. Информация — это всё, что представлено в виде ноликов и единичек. Фильм — это тоже нолики и единички, как и фотография, и текст. Всё это информация, и всю её можно анализировать математически.
[КШ] То есть мы в этих ноликах и единичках ищем какие-то закономерности, какие-то узоры, повторы?
21 000
Такое количество классов объектов выделили пользователи, подписывая 14 миллионов изображений сети ImageNet. Среди них, например, 189 типов собак, из них 37 типов терьеров.
[АК] Смысл анализа данных — это извлечение новых знаний из информации. Мы ищем закономерности, пытаемся понять, но главное — это предсказывать. Что произойдёт, если я изменю форму крыла самолёта? Что будет, если я изменю два типа скрещиваемых растений? Мы делаем предсказания, основанные на данных. И вот в этом смысле математика сейчас объединяет все науки. Они ведь изначально основаны на экспериментах, эксперимент — это всегда данные, а обработка данных — это математика.
[КШ] Вы в своей лекции привели много замечательных примеров применения такого метода анализа данных, как deep learning, глубокое обучение. Можете объяснить, что это такое?
[АК] Да это самый главный вопрос современности! И ответа на него не знает никто. Речь идёт о гигантских нейросетях, способных обучаться — примерно так, как обучается речи ребёнок, по аналогии, не зная никаких правил грамматики. Мы вводим в нейросеть информацию, она её изучает и выдаёт результат обработки, но как она его получила, мы не понимаем. И я очень сомневаюсь, что в ближайшие полвека поймём. Это тот случай, когда эксперимент бежит впереди объяснения. К тем, кто умеет проектировать такие сети, относятся как к гуру или шаманам — они сами толком не понимают, что делают, ориентируются на интуицию, но если у них получается, им готовы платить любые деньги.
[КШ] Нейронные сети в математическом смысле — это, насколько я понимаю, совсем не про реальные нейроны и мозг?
[АК] Конечно, хотя сначала думали, что нейронные сети — это некий аналог того, как работают нейроны в мозгу, хотя никто точно этого не знает. Эта антропоморфность, на мой взгляд, — совершенно ложная вещь. Это как первый самолёт, похожий на летучую мышь, ещё до братьев Райт, который хлопал крыльями, — он даже как-то летал. Но не нужно самолёту хлопать крыльями, как птица. И стальные жеребцы у нас по дорогам не бегают. Почему мозг в этом смысле должен чем-то отличаться?
«Раньше подложишь роботу спичечный коробок — пи-и-ип, и вся антропоморфность закончилась. А сейчас хоть полено положи — он поймёт и переступит».
Мы же знаем, что ещё в 1997 году Каспарова обыграл в шахматы Deep Blue, а в 2011-м Watson обыграл тогдашнего чемпиона в Jeopardy, — для этого не нужно быть похожим на мозг. Хотя какие-то разумные идеи приходят и из биологии и должны применяться в микроэлектронике и программах. Но никто не сказал, что будущий искусственный интеллект или робот, как из рассказов Азимова, будет устроен по образу и подобию человека. Скорее всего, нет, хотя я могу ошибаться.
Американский учёный, создатель кибернетики как науки об информации и управлении. Винер рассматривал информацию как одну из базовых категорий мироустройства наряду с энергией и материей. Во многом благодаря его работам спустя полвека мы не мыслим жизни без информационных технологий.
Американский инженер и математик, основатель теории информации и один из отцов кибернетики наряду с Норбертом Винером. В 1948 году предложил использовать слово «бит» для обозначения наименьшей единицы информации.
[КШ] ИППИ создавали, вдохновляясь идеями модной тогда кибернетики?
[АК] Конечно. Отцы кибернетики Винер, Шеннон — они всё, что сейчас происходит, предвидели. Но, к сожалению, люди восприняли их идеи как ближайшее будущее, как следующий шаг. А когда следующий шаг не случился, интерес к этим идеям был потерян.
[КШ] Получается, сейчас настаёт время реального торжества идей кибернетики?
[АК] Конечно, конечно!
[КШ] Вы чувствуете связь с кибернетикой того времени?
[АК] Самую прямую. Возьмём теорию локомоций Гурфинкеля — казалось бы, какое отношение она имеет к роботам? А ведь Boston Dynamics лишь совсем недавно сумела сделать антропоморфного робота, который может ходить не только по гладкой поверхности. Раньше подложишь роботу спичечный коробок — пи-и-ип, и вся антропоморфность на этом заканчивалась. А сейчас хоть полено положи — он поймёт и переступит.
Эта сложнейшая технология, на разработку которой ушли десятилетия, во многом основывается на трудах Гурфинкеля и нашей лаборатории. Когда человек просто стоит, одновременно работают тридцать мышц. Стоять, кстати, сложнее, чем ходить, недаром перед парадом солдаты в обморок падают — в ожидании.
[КШ] Нынешние роботостроители говорят, что главный «тест Тьюринга», позволяющий отличить робота от человека, должен быть основан не на речи, а на движении: воспроизвести пластику человека гораздо сложнее, чем симулировать интеллект.
[АК] Мы приближаемся к реальности, которая описана в рассказах Азимова. Глубокое обучение — это замечательный пример создания устройств, про которые мы уже сами не понимаем, как они работают. Это очень важный рубеж, принципиальный. Инструмент, который может себя воссоздавать или совершенствовать, а мы даже не понимаем, как это происходит, — решающий шаг на пути к искусственному интеллекту, и он уже сделан. Человечество создало механизм, который делает невероятные с нашей точки зрения вещи и работает непонятным нам способом.
[КШ] Почему свою лекцию, открывающую конференцию, вы назвали «Эпоха праздного любопытства закончена»?
[АК] Праздное любопытство — это когда я занимаюсь интернет-серфингом или в поезде журнал листаю: вдруг да попадётся что-то интересное? И не потому вовсе, что я не знаю, что меня интересует, — просто нет механизма, который найдёт это, и я занимаюсь неструктурированным поиском. Так вот, он уходит в прошлое. Поиск, когда мы просто пытаемся выловить что-нибудь интересное в окружающем мире, становится невозможным. Потому что количество информации растёт экспоненциально. И бродить без цели в этом море бессмысленно.
Зато возникли инструменты, позволяющие найти любую информацию. Скоро, например, появится механизм поиска информации по фото и видео в интернете — это самое ближайшее будущее, завтрашний день. Как сейчас мы пользуемся ключевыми словами и фразами, когда ищем что-нибудь в интернете, точно так же будет устроен в скором времени и видеопоиск.
Девяносто процентов всех имеющихся на сегодня данных были получены за последние два года. Я сам сначала был крайне удивлён этой цифрой. Но коллега из MIT убедил меня на простом примере. Он сказал: «А ты знаешь, что, когда кубок Стэнли провозили по городу, полтора миллиона человек снимало это на видео и клало в свои архивы?» Большая часть информации, которая сейчас хранится в Сети, — это видео. И если за последние двадцать лет мы более-менее научились обращаться с текстовой информацией, то с видеоинформацией мы работали мало.
[КШ] Чтобы научить систему узнавать изображения, нужно ведь как-то сопоставить их со словами?
[АК] Есть открытые сайты, где этим занимается масса людей, например ImageNet. Пользователи этого сайта разметили 14 миллионов фотографий — в виде пирамиды понятий. Вот у нас млекопитающие, вот собаки, вот терьеры, а вот бультерьеры, понимаете? Это делают китайцы на деньги правительства Соединённых Штатов. Представьте себе, сколько нужно людей и времени, чтобы вручную это сделать! А потом Сеть всё это, условно говоря, прочла и поняла, где хаски, где сибирская лайка и так далее.
Ещё три месяца назад человек распознавал объекты на фотографиях чуть лучше, чем аналогичная гугловская платформа GoogleNet. Люди делали ошибки в 5% случаев, программа — в 6%. А сегодня гугловская сеть уже превзошла человека: она делает всего 4,5% ошибок.
Но распознавание образов — это же страшная вещь! О частной жизни можно забыть. Тебя сфотографировали и тут же опознали. Вот спускаюсь я на эскалаторе и вижу девушку, которая поднимается. Я её не догнал, но фотографию сделал — тут же распознал, залез к ней в «Одноклассники» и вот, пожалуй, расхотел знакомиться.
[КШ] Это наше ближайшее будущее?
[АК] Да, хотя пока мы такие вещи делать не умеем. Зато, например, мы замечательно распознаём колёса. Наша программа распознаёт все типы колёс, которые только есть в мире. Или, скажем, алмазы — распознавание всех алмазов в мире сегодня происходит на нашем софте: на глаз ведь нельзя предсказать, есть ли в породе алмаз, а мы можем.
И ещё одна очень важная вещь про ближайшее будущее. С развитием методов экстракции знания из информации будет уменьшаться потребность в «синих воротничках». Не только в рабочих, а вообще в людях средней квалификации.
В Соединённых Штатах, например, первое, что бросается в глаза уже в аэропорту: на каждом углу стоит человек, ничего полезного, в общем-то, не делающий. Совершенно очевидно, что его работа — просто социальная функция. Надо чем-то занять людей, чтобы не жевали кокаин. Нет, его не едят, кажется... Ну, не важно. Современное общество может прокормить огромное количество людей, а занять не может.
Опубликовано в журнале «Кот Шрёдингера» №12 (14) за декабрь 2015 г.