Соцсети — один из главных источников больших данных в современном мире. В одном только Фейсбуке каждую минуту появляются 130 тысяч фото, 300 тысяч статусов и полмиллиона комментариев. Мы пишем очередной пост, изучаем любимые группы, лайкаем котиков и даже не задумываемся, что интернет давно уже знает о нас больше, чем родители.
98 млн россиян зарегистрированы в социальных сетях. Каждый день они делают 31 млн публикаций, выкладывают 9 млн фотографий с людьми, активно выражают одобрение и неодобрение другим пользователям. Данные, которыми мы так щедро делимся, позволяют узнать о нас много интересного: от размера зарплаты до тайной любви к мультфильмам с розовыми пони. Эту информацию используют государство, частные компании, СМИ и независимые исследователи.
Некоторые пользователи закрывают страницы, предоставляя посторонним минимум сведений о себе. Однако если информации нет на странице, это не значит, что её нет нигде: просто нужно знать, где искать. Анализируя профили и группы в социальных сетях, можно обнаружить комментарии и лайки, оставленные пользователем. Выдать вас могут снимки с корпоративов, из клубов, отпуска или просто упоминания в публикациях друзей и сообществ.
Компания SocialDataHub занимается аналитикой открытых источников в интернете. Её алгоритм каждые пять минут сканирует социальные сети, блоги, крупнейшие сервисы отзывов и форумы, сохраняя важные данные на компьютеры компании. Сотрудники SDH видят, когда пользователи создают и удаляют страницы и публикации, могут измерить активность в определённые периоды, а также найти связь между событиями.
Когда данные собраны, их упорядочивают. Удаляют те, что не нужны для обработки, группируют по месту, времени, пользователю или иному параметру. Профили на разных ресурсах объединяют — в этом помогает алгоритм распознавания лиц. Бывает, что в одной соцсети есть фото и реальное имя, в другой — фото, имя и место работы, а на форуме только фото и комментарии. Программы SDH находят все совпадения и собирают информацию о пользователе в единый профиль.
Артур Хачуян. Генеральный директор аналитической компании SocialDataHub (SDH).
Бывший рекламщик, а ныне специалист по анализу данных Артур Хачуян советует не делать в соцсетях ничего, за что может быть стыдно: удалить не получится, вся информация о нас хранится на машинах компании. Например, база самой популярной российской сети «ВКонтакте» у SDH есть с 2010 года.
В 2015 году SocialDataHub впервые провела исследование «Индекс счастья по регионам России». Данные анализировали как за текущий, так и за предыдущий, 2014 год. Похожую работу тремя годами ранее проделало мониторинговое агентство NewsEffector. Методы исследований различались. В случае NewsEffector жители крупнейших городов России отвечали на вопрос, чувствуют ли они себя счастливыми, а SocialDataHub анализировала социальные сети и другие открытые источники в интернете. Результаты получились... впрочем, смотрите сами.
Самыми счастливыми в рейтинге SDH оказались москвичи и жители Московской области. В первую десятку вошли также Санкт-Петербург, Ленинградская область, Краснодарский край, Свердловская, Ростовская области, Башкирия, Нижегородская область и Татарстан. В опросе NewsEffector (в городах, а не в регионах) первые три строчки заняли Грозный, Тюмень и Казань. Москва и Санкт-Петербург не попали даже в топ‑10.
Индекс счастья региона SocialDataHub рассчитывала по 27 параметрам (их подробный список приведён на следующей странице). Анализировали информацию только о тех пользователях, которые имеют аккаунты в социальных сетях. Для учёта плотности населения ввели параметр «проникновение интернета». Город определяли по соответствующей графе в соцсети, меткам геолокации и подпискам на городские группы.
Хотя большую часть данных для исследования собирали в социальных сетях, некоторые параметры для повышения точности индекса брали из других открытых источников. Средняя стоимость аренды жилья, ЖКХ и продуктовой корзины, количество рабочих мест, ДТП и средняя продолжительность жизни — данные, которые можно получить из статистических баз, а также на сайтах с объявлениями. Главные источники здесь Росстат (федеральная служба государственной статистики), ЦИАН (база данных по недвижимости), Avito (сайт с объявлениями о продаже, предоставлении услуг, аренде недвижимости и поиске работы).
О свадьбах и похоронах, кроме как из соцсетей, SDH узнавала из баз данных загсов, а количество гипермаркетов рядом с домом — информация, которую, зная примерный адрес человека, можно получить по онлайн-карте.
Но как узнать примерный адрес? Сотрудники SocialDataHub утверждают, что 80 % отметок геолокации, которые мы случайно или намеренно оставляем на фото, — это дом и место работы. Иногда эту информацию можно проверить: некоторые живописуют свои трудовые будни в постах, комментариях или на форумах. Среднюю зарплату можно определить по базам профильных сайтов — HeadHunter и Superjob.
Маршруты путешествий определить ещё проще: как правило, люди во всеуслышание объявляют, что куда-то уезжают. Выкладывают фотографии, пишут блоги или хотя бы оставляют геометки.
Пользователи часто обмениваются информацией о ценах в любимых кафе в приложениях Foursquare, Swarm, отзывах на картах Google и специализированных сайтах.
Поиск благоустроенных парков — задача более сложная: на эту тему практически всегда пишут в негативном ключе. Чтобы обнаружить места, где приятно побродить, специалисты SDH считали частоту геометок, анализировали фотографии и тексты — искали приглашения и радостные отчёты о состоявшихся прогулках. С анализом текста связаны все параметры, описывающие недовольство или удовлетворение чем-либо. Для этого у SDH есть отдельный алгоритм, который разбивает сообщения на составные части — предложения и слова, определяет части речи, а затем конкретные факты и их значение.
Известные личности города — это и звёзды, и «лидеры мнений». Причём лидерство определялось не столько по числу подписчиков, сколько по скорости распространения контента. То есть речь идёт об авторитетных людях, которые быстро распространяют информацию в определённых кругах: активные мамочки, водители, общественные деятели.
Самое неожиданное в результатах исследования — огромный разрыв между Москвой и любым другим регионом. Если вынести за скобки обе столицы и сопредельные области, средний индекс счастья регионов России за 2015 год составил 308. При этом у Ленинградской области он равен 2 378, Санкт-Петербурга — 4 845, Московской области — 7 865, а у Москвы аж 81 098! Артур считает, что такой результат нельзя объяснить ни доступностью данных о московских объектах, ни количеством контента, который выкладывают москвичи: эти факторы они учли. Вопрос в том, определяет ли индекс именно счастье? Параметры описывают скорее благосостояние регионов и то, как оценивают его жители.
— Россияне не очень счастливы, — говорит Артур. — О плохом пишут в два раза чаще, чем о хорошем, выкладывают очень мало фотографий, где улыбаются. Положительные эмоции в соцсетях вызывают прежде всего такие события, как свадьба, окончание вуза, получение престижной работы. Молодёжь получает удовольствие ещё от мемов и смешных видео.
Опубликовано в специальном выпуске журнала «Кот Шрёдингера» за октябрь 2017 г.
Подписаться на «Кота Шрёдингера»