Каждую секунду в соцсетях регистрируются восемь новых пользователей. Каждый час сети пополняются миллионами лайков, сообщений, фотографий, видео. О чём могут рассказать эти потоки данных? Исследователи наперегонки создают программы, способные извлекать все больше полезной информации из социальных сетей. Будьте бдительны: каждый ваш лайк содержит информацию о вас, пишет argumentua со ссылкой на “Кот Шредингера”
1. Посты и неологизмы
«Репостить», «лайкать», «комментить» — все эти слова плотно вошли в наш лексикон, но до сих пор остаются за рамками словарей. Ученые из Высшей школы экономики и МГУ им. М.В. Ломоносова решили исправить ситуацию и на материалах фейсбука составили список неологизмов русского языка.
Для этого было обработано 573 млн. постов 3,2 млн. пользователей (это почти 40% русскоязычного фейсбука): все тексты автоматически разбивались на слова, которые потом искали в Открытом корпусе русского языка OpenCorpora. Дальше эксперты вручную процеживали получившийся перечень неологизмов, созданный из слов, не найденных в корпусе.
В итоговом списке оказалось 168 слов. Подавляющее большинство из них англицизмы, связанные с интернетом или мультимедиа («фотоотчет», «видеоблог»). При этом образование всех неологизмов подчиняется строгим грамматическим правилам. Единственным исключением стали слова вроде «ржач», «махач», «срач»: это «ч» как элемент словообразования стало более продуктивным именно благодаря социальным сетям.
2. Хештеги и революция
Влияние социальных сетей на мир стало очевидным во время «арабской весны», когда выснилось, что восставшие координируют свои действия и мобилизуют массы с помощью фейсбука и твиттера. А нельзя ли использовать соцсети для предсказания таких событий?
Этим вопросом задались учёные из Кембриджа и Гарварда, разработавшие программу, которая высчитывает индекс политической поляризации и измеряет уровень напряжённости в обществе — близость к революционной ситуации. Для этого исследователи проверили 7000 сообщений египтян в твиттере во время волнений 2013 года на наличие радикальных хештегов вроде «#не забудем, не простим» — в Египте существует почти точный аналог этого выражения.
Хештеги — это такие отметки, которые начинаются со знака «#», знакомят с темой сообщения и позволяют распознавать «своих» в информационной войне. Оказалось, что их анализ вполне пригоден для прогнозирования: пики упоминания радикальных хештегов действительно предшествовали реальным столкновениям.
3. Лайки и сексуальная ориентация
«Человек — то, что он лайкает», — могли бы изречь учёные из Кембриджа, исследовавшие лайки 58 тыс. пользователей Фейсбука и обнаружившие взаимосвязь между мимолётными предпочтениями и более глубокими личностными характеристиками.
Разработанная ими программа отличает белых от афроамериканцев с точностью до 95%, республиканцев от демократов — 85%, мусульман от христиан — 82%. Менее успешно программа «угадывает» семейное положение (точность — 65%), курение (73%) и употребление наркотиков (65%). Позволяют лайки судить и о сексуальной ориентации: для мужчин — с точностью 88%, для женщин — 75%.
При этом корреляции не всегда бывают прямыми: например, только 5% геев лайкали однополые браки и другие столь же специфические события. Программа делает выводы, опираясь на косвенные данные вроде музыкальных предпочтений. Допустим, поставить лайк Hello Kitty — значит признать свою открытость и эмоциональную нестабильность, а любители спиральной картошки фри наверняка идентифицируются как обладатели высокого интеллекта.
4. Фейсбук и настроение
Ничто человеческое интернету не чуждо. Рождение детей и революции, катастрофы и праздники — все главные события реальной жизни неминуемо фиксируются на страницах социальных сетей. Вот и решил Александр Панченко, старший исследователь московской «Лаборатории цифрового общества», написать программу, определяющую общее настроение русскоязычного сегмента фейсбука.
Его алгоритм находит в текстах эмоционально окрашенные слова, список которых составлен экспертами (негативные — «страшный», «скучный», позитивные — «любимый», «бесплатный»). Далее высчитываются доли положительных, отрицательных и нейтральных слов в тексте и уже по ним – индексы эмоциональности.
Оказалось, что позитивные тексты появляются в фейсбуке в 7,5 раз чаще негативных. Вообще же посты, как и пользователи, чутко реагируют на реальные события: на графике хорошо видны вспышки радости в выходные и праздники и провалы, совпадающие с войнами, стихийными бедствиями и массовыми протестами.
5. Твиты и простуда
Министерство здравоохранения США объявило конкурс на лучшую программу, которая по твитам вроде «Кажется, я заболел. Чувствую себя совершенно разбитым» сможет отслеживать распространение болезни. Победила команда исследователей из Университета Джонса Хопкинса.
Их алгоритм анализирует 5000 коротких сообщений в минуту и отсеивает те, что не касаются здоровья конкретного пользователя (к примеру, «Обама сегодня не впечатлил. Приболел, наверное»). В результате по проценту «простуженных» твитов программа в режиме реального времени собирает достоверную информацию о количестве заболевших в стране и путях распространения инфекции.
6. Френды и расставания
Даже если вы предпочитаете не афишировать романистические отношения, компьютерная программа все равно сможет вычислить вашего партнера в списке «френдов». Ну, не всегда, конечно, но в 60% случаев. Алгоритм создали Джон Клейберг из Корнельского университета и инженер Facebook Ларс Бакстром. Для отработки программы они собрали данные о 1,3 млн пользователей, указавших свое семейное положение и имевших от 50 до 2000 френдов.
Алгоритм отслеживает, сколько социальных групп связывает между собой двух людей. Например, она знакома с его коллегами по работе, а он с ее друзьями по школе, и больше никто из этих обособленных сообществ друг с другом не связан. Чем больше таких мостиков, тем выше вероятность, что пара состоит или будет состоять в романтических отношениях. И наоборот: программа предсказывает вероятность расставания, даже, если в статусе стоит «в отношениях с…».