Американские исследователи создали компьютерную модель, которая умеет предсказывать политические предпочтения граждан по их автомобилям. Для этого они проанализировали 50 миллионов изображений Google Street View, сделанных в 200 американских городах, а также данные о переписи населения. Об этом сообщается в статье, опубликованной в журнале Proceedings of the National Academy of Sciences, пишет N+1.
Для сбора демографических данных (например, во время переписи населения) обычно используют многочисленные бумажные или электронные опросники, которые заполняют либо сами жители, либо специалисты во время интервью. Такие данные необходимы для социоэкономических исследованиях, сосредоточенных на изучении различных показателей жизни граждан — тем не менее, традиционные методы их сбора и анализа неэффективны в плане огромного количества затрат (как времени, так и финансов).
Современные технологии, однако, позволяют облегчить этот процесс с помощью автоматической обработки общедоступной информации: так, например, с помощью данных о пользователях Twitter можно вычислить безработных. В своей новой работе исследователи под руководством Ли Фей-Фея (Li Fei-Fei) из Стэндфордского университета использовали данные об автомобилях жителей США для предсказания демографических показателей в округе.
Проанализировав изображения местности, исследователи получили отдельные изображения 22 миллионов автомобилей, что примерно равняется 32 процентам всех зарегистрированных транспортных средств на территории попавших в выборку городов. Это удалось сделать благодаря алгоритму распознавания, который классифицирует объекты на основе признаков, полученных при анализе объектов (в данном случае — транспортных средств) из обучающей выборки.
Последующий анализ изображений автомобилей был проведен при помощи сверточных нейронных сетей — самого эффективного на сегодняшний день алгоритма распознавания изображений. Этот алгоритм помог классифицировать транспорт по типу (например, легковой автомобиль, грузовик или минивэн), производителю, модели и году выпуска. Ученые затем составили базу данных, содержащую информацию о распределении автомобилей определенного типа в 200 городах. Кроме того, в базу данных была включена информация о распределении расы, уровня образования и среднего годового дохода жителей.
База данных затем была разделена на две выборки: обучающую (35 городов) и тренировочную (165 городов). Исследователям удалось обучить простую линейную модель по типами и моделями автомобилей в городах определять демографические показатели их жителей. Сравнение полученных результатов с реальными данными указало на валидность используемого метода: так, например, годовой доход был правильно определен с вероятностью 82 процента, а факт окончания школы жителей — с вероятностью 65 процентов.
Распределение (слева — реальное, справа — полученное моделью) i. белых ii. афроамериканцев iii. азиатов iv. не получивших среднее образование v. получивших высшее образование vi. средний годовой доход
(A) распределение i. реальных и ii. полученных компьютерной моделью данных о политических предпочтениях. iii. отношение количества пикапов к седанам. (В) Слева — реальное распределение политических предпочтений в штатах, справа — полученное моделью. Традиционно, синий цвет обозначает демократов, а красный — республиканцев
Самым интересным результатом является то, что исследователям удалось по типу и марке автомобиля определить политические предпочтения жителей. Для этого в обучающей выборке они использовали процент проголосовавших за Барака Обаму, представлявшего демократическую партию во время Президентских выборов 2008 года. Так, ученые выяснили, что преобладание пикапов над седанами в округе связано с тем, что округ проголосует за республиканцев с вероятностью 82 процента, в то время как обратная ситуация (когда седанов в регионе больше, чем пикапов), приведет к тому, что за демократов проголосуют с вероятностью 88 процентов. Предложенная модель, по мнению авторов, может послужить эффективной заменой традиционным методам сбора демографических данных.