Библиотека Конгресса США решила сохранить для потомков записи в Twitter

Вспомним, для того, чтобы сгенерировать первый 21 миллиард твитов, пользователям блогосервиса потребовалось целых 4 года. А сегодня только за один день люди постят в своих аккаунтах Twitter до 0,5 миллиарда сообщений.
В связи с тем, что эти записи являются отражением жизни современного общества, Библиотека Конгресса решила приравнять эту информацию к древним фолиантам и раритетным изданиям книг, газет, журналов и законодательных актов. Ведь через 50-100 лет сегодняшние твиты окажутся такой же стариной, как и первые книги, выпущенные на американском континенте.
Поэтому было принято решение заархивировать и проиндексировать более 170 миллиардов твитов. Процесс их сбора уже завершен. Осталось собрать их в архив и, так сказать, “отправить на хранение”.
Перед началом этой кропотливой работы руководство Библиотеки Конгресса США подписало соглашение с Twitter о предоставлении доступа к базам данных сервиса. Это произошло еще в 2010-м году. Тогда же Twitter начал передачу библиотекарям пакетов твитов, которые публиковались на страницах микроблогов, начиная с 2006-го года и заканчивая апрелем 2010-го года. С тех пор и до сегодняшнего дня Библиотека Конгресса уже получила более 170 миллиардов твитов.
В официальном сообщении, опубликованном несколько дней назад, архивариусы рассказали, как продвигается реализация данного проекта: “База данных Twitter представляет собой новую коллекцию Библиотеки Конгресса. Ее создание является очень важной частью нашей миссии. Так как современное общество в качестве основного метода общения и творческого самовыражения выбрало социальные медиа, значимость которых постоянно увеличивается, а в некоторых случаях они просто вытесняют письма, журналы, типографские издания и другие источники информации, мы приняли решение регулярно собирать такие сообщения в библиотечных исследованиях (архивах).
Хотя библиотека до сих пор занималась созданием и стабилизацией архива и не предлагала исследователям доступ к накопленной информации, мы, тем не менее, уже получили около 400 запросов от ученых со всего мира. Это некоторые общие темы, представляющие интерес для исследователей, изучающих степень развития, а также роста влияния гражданской журналистики, отслеживающих уровень вакцинации и занимающихся прогнозированием деятельности фондового рынка”.
Пока что не понятно, как именно создаваемый архив твитов будет использоваться, но Библиотека уже издала PDF-файл с описанием проекта. Как стало известно, каждый твит содержит около 50 сопровождающих полей с метаданными. Две полные копии архива сообщений сервиса микроблогов (170 миллиардов твитов) весят около 133 терабайт.
Стоит отметить, что недавнее решение Twitter внедрить функцию скачивания пользователями всей базы их твитов, сделанных на протяжении всех лет существования их аккаунтов, не относится к проекту Библиотеки Конгресса США. Воспользоваться новой возможностью могут лишь некоторые люди. Процесс еще не отлажен.