Улыбайтесь, ваши селфи смотрит робот

Иллюстрации: Shutterstock
// Что рассказывают социальные сети о счастье россиян?
Алексей Смагин

Соцсети — один из главных источников больших данных в современном мире. В одном только Фейсбуке каждую минуту появляются 130 тысяч фото, 300 тысяч статусов и полмиллиона комментариев. Мы пишем очередной пост, изучаем любимые группы, лайкаем котиков и даже не задумываемся, что интернет давно уже знает о нас больше, чем родители.

98 млн россиян зарегистрированы в социальных сетях. Каждый день они делают 31 млн публикаций, выкладывают 9 млн фотографий с людьми, активно выражают одобрение и неодобрение другим пользователям. Данные, которыми мы так щедро делимся, позволяют узнать о нас много интересного: от размера зарплаты до тайной любви к мульт­филь­мам с розовыми пони. Эту информацию используют государство, частные компании, СМИ и независимые исследователи.

Некоторые пользователи закрывают страницы, предоставляя посторонним минимум сведений о себе. Однако если информации нет на странице, это не значит, что её нет нигде: просто нужно знать, где искать. Анализируя профили и группы в социальных сетях, можно обнаружить комментарии и лайки, оставленные пользователем. Выдать вас могут снимки с корпоративов, из клубов, отпуска или просто упоминания в публикациях друзей и сообществ.

Компания SocialDataHub занимается аналитикой открытых источников в интернете. Её алгоритм каждые пять минут сканирует социальные сети, блоги, крупнейшие сервисы отзывов и форумы, сохраняя важные данные на компьютеры компании. Сотрудники SDH видят, когда пользователи создают и удаляют страницы и публикации, могут измерить активность в определённые периоды, а также найти связь между событиями.

Когда данные собраны, их упорядочивают. Удаляют те, что не нужны для обработки, группируют по месту, времени, пользователю или иному параметру. Профили на разных ресурсах объединяют — в этом помогает алгоритм распознавания лиц. Бывает, что в одной соц­сети есть фото и реальное имя, в другой — фото, имя и место работы, а на форуме только фото и комментарии. Программы SDH находят все совпадения и собирают информацию о пользователе в единый профиль.

Артур Хачуян. Генеральный директор аналитической компании SocialDataHub (SDH).

Бывший рекламщик, а ныне специалист по анализу данных ­Артур Хачуян советует не делать в соцсетях ничего, за что может быть стыдно: удалить не получится, вся информация о нас хранится на машинах компании. Например, база самой популярной российской сети «ВКонтакте» у SDH есть с 2010 года.

Почему я счастливый такой

В 2015 году SocialDataHub впервые провела исследование «Индекс счастья по ­регионам России». Данные ­анализировали как за текущий, так и за предыду­щий, 2014 год. Похожую работу тремя годами ранее проделало мониторинговое агентство NewsEffector. Методы исследований различались. В случае NewsEffector жители крупнейших городов России отвечали на вопрос, чувствуют ли они себя счастливыми, а SocialDataHub анализировала социальные сети и другие открытые источники в интернете. Результаты получились... впрочем, смотрите сами.

Самыми счастливыми в ­рейтинге SDH оказались москвичи и жители Московской области. В первую десятку вошли также Санкт-​Петербург, Ленинградская область, Краснодарский край, Свердловская, Ростовская области, Башкирия, Нижегородская область и Татарстан. В опросе NewsEffector (в городах, а не в регионах) первые три строчки заняли Грозный, Тюмень и Казань. Москва и Санкт-​Петербург не попали даже в топ‑10.

Индекс счастья региона SocialData­Hub рассчитывала по 27 параметрам (их подробный список приведён на следующей странице). Анализировали информацию только о тех пользователях, которые имеют аккаунты в социальных сетях. Для учёта плотности населения ввели параметр «проникновение интернета». Город определяли по соответствующей графе в соцсети, меткам геолокации и подпискам на городские группы.

Превратить данные в знание

Хотя большую часть данных для исследования собирали в социальных сетях, некоторые параметры для повышения точности индекса брали из других открытых источников. Средняя стоимость аренды жилья, ЖКХ и продуктовой корзины, количество рабочих мест, ДТП и средняя продолжительность жизни — данные, которые можно получить из статистических баз, а также на сайтах с объявлениями. Главные источники здесь Росстат (федеральная служба государственной статистики), ЦИАН (база данных по недвижимости), Avito (сайт с объявлениями о продаже, предоставлении услуг, аренде недвижимости и поиске работы).

О свадьбах и похоронах, кроме как из соцсетей, SDH узнавала из баз данных загсов, а количество гипермаркетов рядом с домом — информация, которую, зная примерный адрес человека, можно получить по онлайн-​карте.

Но как узнать примерный адрес? Сотрудники SocialDataHub утверждают, что 80 % отметок геолокации, которые мы случайно или намеренно оставляем на фото, — это дом и место работы. Иногда эту информацию можно проверить: некоторые живописуют свои трудовые будни в постах, комментариях или на форумах. Среднюю зарплату можно определить по базам профильных сайтов — HeadHunter и Superjob.

Маршруты путешествий определить ещё проще: как правило, люди во всеуслышание объявляют, что куда-​то уезжают. Выкладывают фотографии, пишут блоги или хотя бы оставляют геометки.

Пользователи часто обмениваются информацией о ценах в любимых кафе в приложениях Foursquare, Swarm, отзывах на картах Google и специализированных сайтах.

Поиск благоустроенных парков — задача более сложная: на эту тему практически всегда пишут в негативном ключе. Чтобы ­обнаружить места, где приятно побродить, специалисты SDH считали частоту гео­ме­ток, анализировали фотографии и тексты — искали приглашения и радостные отчёты о состоявшихся прогулках. С анализом текста связаны все параметры, описывающие недовольство или удовлетворение чем-​либо. Для этого у SDH есть отдельный алгоритм, который разбивает сообщения на составные части — предложения и слова, определяет части речи, а затем конкретные факты и их значение.

Известные личности города — это и звёзды, и «лидеры мнений». Причём лидерство определялось не столько по числу подписчиков, сколько по скорости распространения контента. То есть речь идёт об авторитетных людях, которые быстро распространяют информацию в определённых кругах: активные мамочки, водители, общественные деятели.

Всё-​таки не очень счастливы

Самое неожиданное в резуль­татах исследования — огромный разрыв между Москвой и любым другим регионом. ­Если вынести за скобки обе столицы и сопредельные области, средний индекс счастья регионов России за 2015 год составил 308. При этом у Ленинградской области он равен 2 378, Санкт-​Петербурга — 4 845, ­Московской области — 7 865, а у Москвы аж 81 098! Артур считает, что такой результат нельзя объяснить ни доступностью данных о московских объектах, ни количеством контента, который выкладывают москвичи: эти факторы они учли. Вопрос в том, определяет ли индекс именно счастье? Параметры описывают скорее благосостояние регионов и то, как оценивают его жители.

— Россияне не очень счастливы, — говорит Артур. — О плохом пишут в два раза чаще, чем о хорошем, выкладывают очень мало фотографий, где улыбаются. Положительные эмоции в соцсетях вызывают прежде всего такие события, как свадьба, окончание вуза, получение престижной работы. Молодёжь получает удовольствие ещё от мемов и смешных видео.

Самые счастливые пользователи соцсетей

// Рейтинг по регионам

Параметры для определения индекса счастья

  • средняя заработная плата;
  • средняя стоимость аренды жилья;
  • средняя стоимость ЖКХ;
  • средняя цена продуктовой корзины;
  • средняя цена обеда в точках общественного питания;
  • средняя продолжительность жизни;
  • как часто люди улыбаются на фото;
  • как часто люди путешествуют;
  • количество рабочих мест в городе;
  • количество благоустроенных парков;
  • количество культурных мероприятий;
  • количество детей в семье;
  • количество ДТП в городе;
  • количество гипермаркетов рядом с домом;
  • количество известных земляков;
  • количество свадеб;
  • количество похорон;
  • недовольство/удовлетворение спортивными успехами города;
  • недовольство/удовлетворение погодой;
  • недовольство/удовлетворение ЖКХ;
  • недовольство/удовлетворение медицинскими услугами;
  • недовольство/удовлетворение качеством образования;
  • недовольство/удовлетворение чистотой города;
  • недовольство/удовлетворение работой федеральных властей;
  • недовольство/удовлетворение работой региональных властей;
  • демографическое равенство (соотношение мужчин и женщин);
  • проникновение интернета (процент аккаунтов в социальных сетях от общего числа жителей города).

 

Опубликовано в специальном выпуске журнала «Кот Шрёдингера» за октябрь 2017 г.

Подписаться на «Кота Шрёдингера»