То, что люди любят делать прогнозы и верить им, — общеизвестный факт. При этом большинство предсказаний не сбывается. В издательстве «КоЛибри» в начале апреля выходит книга известного статистика Нейта Сильвера. Она посвящена навыку распознания настоящего сигнала в информационном шуме современного мира. Сильвер рассматривает способы поимки «черных лебедей» — труднопрогнозируемых и редких событий, имеющих значительные последствия. Анализируя, в том числе, опыт применения компьютеров в работе с большими базами данных, Сильвер напоминает читателю, что главное условие для успешного прогноза — гибкий человеческий ум и опыт.
Парадокс продуктивности
Всякий раз, когда информационный рост происходит быстрее, чем развивается наше понимание того, как именно обрабатывать получаемые данные, нас поджидает опасность. Последние 40 лет человеческой истории показывают, что для превращения информации в полезное знание может потребоваться немалое время и что если мы не будем достаточно осторожны, то легко сможем сделать шаг назад.
Книга Нейта Сильвера «Сигнал и шум: почему одни прогнозы сбываются, а другие — нет»
Понятие «информационная эпоха» вряд ли можно считать таким уж новым. Оно получило определенное распространение уже в конце 1970-х годов. Другой похожий термин — «компьютерная эра» — использовался даже несколько раньше, примерно с 1970 года. В то время компьютеры уже начали более широко применяться в лабораториях и других научных учреждениях, хотя еще и не стали привычным предметом бытовой техники. В этот раз нам не понадобились 300 лет для того, чтобы рост в области информационных технологий начал приносить человеческому обществу весомые преимущества. Однако нам все равно потребовалось от 20 до 30 лет.
1970-е годы были (выражаясь словами Пола Кругмана) «звездным часом множества теорий, созданных вокруг невероятно небольших объемов данных». Мы начали использовать компьютеры для создания моделей мира, однако нам потребовалось время, чтобы понять, насколько неточными и основанными на предположениях они были. Мы не сразу осознали, что точность, на которую способны компьютеры, не может заменить правильность прогнозов. В эту эпоху мы выдвигали множество смелых предположений в целом ряде областей, начиная от экономики и заканчивая эпидемиологией, и очень часто эти предположения оказывались ошибочными. Например, в 1971 году было заявлено о том, что в течение следующего десятилетия мы научимся достаточно точно предсказывать землетрясения, однако прошло 40 лет, а мы так и не приблизились к решению этой проблемы.
На самом деле компьютерный бум 1970-х и 1980-х годов привел к временному снижению экономической и научной производительности. Экономисты назвали это «парадоксом продуктивности». «Влияние компьютерной эпохи можно было увидеть во всем, за исключением статистики продуктивности», — писал экономист Роберт Солоу в 1987 году. В период между 1969 и 1982 годом Соединенные Штаты столкнулись с четырьмя явными рецессиями. Конец 1980-х был более сильным периодом в экономическом плане для США, но не для многих других стран мира.
Научный прогресс значительно сложнее поддается оценке, чем экономический. Однако одним из его индикаторов может служить количество выданных патентов, особенно в области инвестиций в исследовательскую деятельность. Если после внедрения нового изобретения происходит снижение цен на тот или иной продукт, то это значит, что мы мудро используем имеющуюся информацию и успешно превращаем ее в знание. Если же цены начинают расти, это дает основания считать, что мы видим сигналы в шуме и напрасно тратим время, двигаясь в неверном направлении.
В 1960-х годах в Соединенных Штатах было потрачено около 1,5 миллионов долларов (с учетом инфляции) на каждую патентную заявку, поданную американским изобретателем. Однако на заре информационной эпохи эта цифра скорее росла, а не снижалась, а пиковое значение, достигнутое в 1986 году, составило примерно 3 миллиона долларов.
По мере того как мы начали более реалистично оценивать пользу от применения новых технологий, ситуация стала вновь улучшаться в 1990-е годы. Мы реже оказывались в тупиковых ситуациях; компьютеры сделали нашу повседневную жизнь лучше и стали помогать нашей экономике. Зачастую то, что выглядело прогрессивным в будущем, в скором времени приводило к регрессу. То, что кажется предсказуемым в долгосрочной перспективе, способно нарушить наши самые продуманные планы в настоящем.
Обещания и подводные камни «Больших данных»
Если бы мне нужно было назвать единственную определяющую черту американцев — то, что делает нас исключительными, — я бы назвал веру в идею Кассия, в то, что мы сами контролируем собственную судьбу. Наша страна была создана на заре промышленной революции религиозными бунтарями, считавшими, что свободный поток идей помогает распространять не только религиозные, но и научные и коммерческие убеждения. Значительная доля наших сильных и слабых черт — нашей изобретательности и нашего трудолюбия, нашего высокомерия и нашего нетерпения — проистекает из непоколебимой веры в идею о том, что мы сами выбираем собственный путь.
Однако новое тысячелетие началось для американцев отвратительно. Мы не ожидали атак 11 сентября. Основная проблема заключалась в нежелании увидеть информацию. Как и в случае с нападением на Перл-Харбор шестью десятилетиями ранее, у нас имелись все сигналы. Однако мы не сопоставили одни сигналы с другими. При отсутствии достойной теории о поведении террористов мы оказались слепы к данным, а атаки оказались для нас «неизвестным неизвестным».
Немало неудачных предсказаний было связано и с недавним глобальным финансовым кризисом. Наша наивная вера в модели и неспособность понять, насколько сильно они полагаются на довольно хрупкие предположения, уже привела к разрушительным результатам. Кроме этого, я обнаружил, что даже в более рутинных условиях мы неспособны спрогнозировать рецессии более чем за несколько месяцев — и совсем не потому, что не стараемся этого сделать.
Несмотря на значительный прогресс в контроле уровня инфляции, можно сказать, что во всех остальных важных вопросах творцы нашей экономической политики действуют вслепую.
Модели прогнозирования, опубликованные политологами в преддверии президентских выборов 2000 года, предсказали убедительную победу Ала Гора, причем с большим перевесом.
Однако выборы выиграл Джордж У. Буш. Неверные прогнозы такого рода вряд ли можно считать аномальными — они довольно типичны для политических предсказаний. Многолетнее исследование, проведенное Филипом Э. Тэтлоком из Пенсильванского университета, показало, что даже после того, как политологи заявляли о полной невозможности определенного политического события, оно тем не менее происходило примерно в 15 процентах случаев (при этом результаты политологов зачастую оказываются лучше, чем выводы аналитиков, мелькающих в телевизионных шоу).
В последнее время, как и в 1970-х годах, предпринимался ряд попыток предсказать землетрясения, в основном с помощью математических методов, предполагающих управление данными.
Однако в результате некоторые предсказанные землетрясения так и не произошли, но были другие, к которым мы не смогли подготовиться. Конструкция ядерного реактора в Фукусиме предусматривала возможность выдерживать землетрясение магнитудой 8,6 балла, отчасти потому, что некоторые сейсмологи посчитали, что более сильные землетрясения просто невозможны. Однако в марте 2011 года произошло самое ужасное в истории Японии землетрясение магнитудой 9,1 балла.
Существует целый ряд научных дисциплин, в которых предсказания часто оказываются неверными, и порой это обходится обществу очень дорого. Достаточно рассмотреть отрасль биомедицинских исследований. В 2005 году уроженец Афин, медицинский исследователь по имени Джон П. Иоаннидис опубликовал довольно противоречивую работу под названием «Почему самые широко публикуемые выводы исследований неверны».
Компьютер анализирует результаты выборов, Филадельфия (США), 1952 год
В работе изучались выводы, полученные другими исследователями, точнее, были приведены описания различных медицинских гипотез, выдвинутых в рамках лабораторных экспериментов. По мнению автора, большинство этих выводов показало бы свою несостоятельность в условиях реального мира. Не так давно компания Bayer Laboratories подтвердила гипотезу Иоаннидиса. При проведении собственных экспериментов компании не удалось повторить около двух третей результатов, о которых сообщалось в медицинских журналах.
Большие данные действительно приведут к прогрессу, но лишь со временем. Насколько быстро это произойдет и возможен ли дальнейший регресс, будет зависеть от нас самих.
Почему нас шокирует будущее
С биологической точки зрения мы не очень сильно отличаемся от своих предков. Однако некоторые из сильных сторон каменного века превратились в условиях информационной эпохи в слабости.
У людей довольно мало естественных защитных механизмов. Мы относительно медлительны и не особенно сильны. У нас нет когтей, клыков или брони. Мы не можем плевать ядом или маскироваться. Мы не умеем летать. Вместо всего этого мы выживаем благодаря своим мозгам. Мы способны быстро мыслить. Мы умеем находить закономерности и легко реагировать на появляющиеся возможности и возникающие угрозы.
«Эта потребность в поиске закономерностей проявляется у людей значительно сильнее, чем у других животных», — рассказал мне Томассо Поджио, специалист по неврологии из Массачусетского технологического института, изучающий, как наш головной мозг обрабатывает информацию. «Узнавание объектов в сложных ситуациях предполагает определенную степень обобщения. Новорожденный ребенок способен узнавать очертания лиц. И это не индивидуальный навык, а способность, приобретенная нами в ходе эволюции».
По словам Поджио, проблема состоит в том, что эти эволюционные инстинкты иногда заставляют нас видеть закономерности там, где их нет. «Люди постоянно находят закономерности в случайном шуме», — считает Поджио.
Человеческий мозг — невероятно интересная вещь; по некоторым данным, он способен хранить до трех терабайтов информации. Однако этот огромный объем представляет собой около одной миллионной от той информации, которая, по данным IBM, производится в мире каждый день. Поэтому мы должны быть в высшей степени избирательны по отношению к информации, которую нам нужно помнить.
Элвин Тоффлер, автор вышедшей в 1970 году книги «Шок будущего» (Alvin Toffler «Future Shock»), предсказал некоторые последствия того, что он называл «информационной перегрузкой». По его мнению, лучший защитный механизм состоит в том, чтобы упрощать мир в соответствии со своими предубеждениями, хотя сам по себе мир становится все более разнообразным и комплексным.
Наши биологические инстинкты не всегда хорошо адаптируются к современному обществу, переполненному информацией. И пока мы не начнем активно изучать собственные предубеждения, польза от дополнительной информации будет ничтожной или даже превратится во вред.
Информационная перегрузка, возникшая после рождения печатного пресса, привела к росту сектантства. Теперь все различные религиозные идеи можно было тестировать с помощью большего объема информации, с большей убежденностью, с большим количеством «доказательств» — и со значительно меньшей терпимостью к иным мнениям. То же самое явление разворачивается в наши дни. Разделение по политическим партиям в США начало активно развиваться примерно тогда же, когда Тоффлер написал «Шок будущего», и его темпы ускорились с появлением интернета.
Подобные партийные убеждения могут легко нарушить справедливость утверждения о том, что чем больше информации, тем ближе мы становимся к истине. Недавнее исследование, проведенное журналом Nature, показало, что чем больше информации о глобальном потеплении получали рьяные приверженцы той или иной партии, тем меньше они соглашались со своими оппонентами.
Питер Гейгер, редактор "Альманаха фермеров" с копией последнего издания знаменитого прогноза погоды, 2005 год. Альманах выходил в течение 189 лет, прогноз погоды на год в нем совпадал на 80-85 процентов
Питер Гейгер, редактор «Альманаха фермеров» с копией последнего издания знаменитого прогноза погоды, 2005 год. Альманах выходил в течение 189 лет, прогноз погоды на год в нем совпадал на 80-85 процентов
Кроме этого, даже при том, что объем информации ежедневно увеличивается на 2,5 квинтильона байт, с объемом полезной информации ситуация совершенно иная. Основная масса ежедневного прироста представляет собой обычный шум, растущий быстрее сигнала. У нас есть масса гипотез, требующих тестирования, и куча информационных массивов для тестирования — однако объем той информации, которую можно считать объективной истиной, остается практически неизменным.
Печатный пресс изменил наш способ совершать ошибки. Более редкими стали обычные ошибки переписчиков. Однако, если ошибка возникала, она могла воспроизводиться множество раз, как произошло с «Греховной Библией» (экземпляр средневековой Библии с ошибкой в написании одной из заповедей — «прелюбодействуй» — прим. «Ленты.ру»).
Этим свойством отличаются сложные системы типа Всемирной паутины. Возможно, они дают сбой не так часто, как более простые системы, но если этот сбой происходит, он оказывается в высшей степени значительным. Капитализм и интернет — две системы, невероятно эффективные с точки зрения пропаганды, позволяют плохим идеям распространяться точно в такой же степени, что и хорошим. Плохие идеи могут вызвать непропорционально сильный эффект. В преддверии финансового кризиса система была настолько искаженной, что любое недостаточно точное предположение в моделях, созданных кредитными рейтинговыми агентствами, сыграло огромную роль в кризисе всей глобальной финансовой системы.
Один из путей решения этой проблемы состоит в регулировании. Однако я подозреваю, что это всего лишь попытка отказаться от того, чтобы обратиться за ответами внутрь самих себя. Нам нужно остановиться и признать, что у нас, у людей, есть проблема с предсказаниями. Мы любим заниматься ими, но не очень хорошо умеем это делать.