Соблазн Больших данных
Если бы это было не так, все репрезентативные исследования, в том числе общественного мнения, уже давно проводились бы в форме интернет-опросов, в которых обычно принимает участие в несколько десятков раз больше людей, чем попадает в стандартную выборку исследователя. Например, известный Институт Гэллапа в США продолжает проводить подавляющее число своих исследований на относительно маленьких, тщательно отобранных группах респондентов. 60% — это обычно абоненты мобильных телефонов, и 40% — домашних. На разных порталах на те же самые темы голосует, порой, в сто раз больше людей. Однако никто не распространяет эти результаты на всех интернет-пользователей, а тем более на все общество. Эмоциональное утверждение авторов упомянутой выше книги, что «обращаться к выборкам в эпоху Big Data, все равно, что хвататься за кнут в эпоху автомобилей», пока не нашло своего подтверждения на практике.
Почему? Потому что в наше время проблема статистических исследований состоит не в количестве информации, а в ее качестве. Простое увеличение числа наблюдений не ведет к улучшению качества выводов.
Когда весной прошлого года оказалось, что ни один из исследовательских центров не смог предвидеть значительное превосходство Консервативной партии над Лейбористской перед парламентскими выборами в Великобритании, это дело решили расследовать. Однако ни одна из версий источника ошибки не говорила о том, что выборки респондентов были недостаточными большими. Мало того, один из центров провел свой последний опрос перед выборами на выборке из 10 000 респондентов. И в его результатах была та же погрешность, что и в исследованиях других центров, работавших с выборкой в 1000 и 4000 человек.
В статистических исследованиях нет прямой взаимосвязи между качеством и количеством. Увеличение количества данных с одновременным попустительством в плане точности лишь создает иллюзию получения более качественного знания.
Когда ошибка не уменьшается
Эта иллюзия происходит из уверенности, что мы сможем избежать ошибок, если подвергнем наблюдению все или почти все единицы данной группы. Многие полагают, что самая большая погрешность исследований проистекает из факта, что изучается лишь выборка, а не вся популяция (так называемая статистическая ошибка выборки). Между тем это только одна из ошибок, которые могут оказать влияние на результат статистического исследования. Вдобавок, статистики лучше всего умеют ее контролировать, более того, она часто бывает самой малой составляющей общей погрешности исследования.
Ведь в исследованиях появляются также систематические ошибки выборки, в особенности, связанные с инструментами измерения или, хотя бы, с нежеланием респондентов отвечать на вопросы. Специфика всех ошибок систематического свойства заключается в том, что с увеличением размера выборки они не уменьшаются. Если, например, семьи с самым высоким доходом часто отказываются от участия в любого рода опросах, даже самая большая выборка не ликвидирует погрешность результата исследования. Увеличение количества не отразится на качестве.
Такой же ответ следует дать всем тем, кто требует перед выборами сделать исследование, которое сможет с большой долей вероятности предсказать их исход. Они хотят, чтобы статистическая погрешность составляла не 3%, что нормально для большинства опросов, а 1% или даже меньше. Им очевидно, что для этого нужно увеличить количество респондентов в выборке и, соответственно, расходы на исследование.
Количество и качество
Однако не расходы на увеличения размера выборки с 1067 до 9600 человек останавливают исследовательские центры перед проведением таких опросов. Просто они знают, что это лишь увеличит статистическую ошибку, а остальные, то есть ошибки систематические, не только останутся на своем месте, но их влияние на окончательный результат исследования возрастет. У получателя такого исследования сложится впечатление, что статистическая погрешность в нем мала (1%), однако в действительности по сравнению с выборкой из 1100 человек, изменится она очень незначительно.
Что это значит для людей, увлеченных новыми возможностями получения и анализа огромных массивов данных? Неужели от Big Data нет никакой пользы?
В новых источниках информации содержится большое количество ценных знаний, нужно только их извлечь. Однако здесь возникает большой риск некритичного подхода к этим источникам, который проистекает из убежденности в том, что все большое заслуживает доверия («раз тысячи наблюдений это подтверждают, разве может быть иначе?»), а также из ложной идеи, что увеличение количества позволит нам компенсировать недостающее качество. Эта последняя мысль, особенно в науке, может привести к огромному количеству неверных выводов, обнаружению мнимых причинно-следственных связей или взаимопротиворечащих закономерностей.
Мирослав Шредер (Mirosław Szreder), Tygodnik Powszechny, Польша