Что такое веб-архив и как им пользоваться?

У самых посещаемых сайтов за весь период их существования может быть создано более 200 тыс. версий. Благодаря веб-архиву они не исчезают бесследно, а архивируются в интернете. Пользователи могут найти нужный контент, ранее опубликованный в сети, даже если он был удален. Исключение составляют те веб-ресурсы, владельцы которых установили запрет на архивирование страниц.

О чем идет речь?

Что такое Web Archive и где хранится история интернета?
Как работает Wayback Machine?
Как запретить добавление сайта в веб-архив?
Как восстановить сайт из Web Archive?
Выводы

Что такое Web Archive и где хранится история интернета?

Веб-архив — это сервис, который собирает и хранит копии сайтов за разные даты. С момента основания в 1996 году в нем сохранено более 525 млрд веб-страниц, в том числе 28 млн книг, 14 млн аудиофайлов и 6 млн видео. Сайт web.archive.org входит в топ-150 самых популярных проектов мира.

Целью создателей веб-архива было решение проблемы постоянного и необратимого исчезновения контента на измененных или закрытых сайтах. Архив был разработан как сервис общего доступа ко всем знаниям в виде цифровых данных.

«Предпосылками развития вебархивирования стали проблемы вымирания ссылок и потенциальное наступление цифровых темных веков. В 1996 году создан «Архив Интернета» — первая некоммерческая организация, которая поставила своей целью создать «снимки» всех страниц в интернете. В 2001 году «Архив» запустил сервис по архивированию сайтов Wayback Machine, через который по состоянию на 2021 год было сохранено более 600 млрд веб-страниц». «Архивирование веб-сайтов», Википедия

Копии веб-страниц архивируются при сохранении вручную, а также при посещении сайтов вебкраулерами. Последних называют также пауками или ботами — эти программы переносят данные с веб-ресурсов в веб-архив. Аналогично происходит добавление содержимого сайтов в базу данных поисковиков.

С помощью интернет-архива можно узнать, как выглядел сайт в прошлом, выбрав конкретную дату, и это не единственное назначение Web Archive. Существует ряд других возможностей, которые открывает перед пользователями архив.

Для дизайнеров, разработчиков сайтов, маркетологов, SEO-специалистов, ценным является понимание давно забытых трендов, требований поисковых систем, способов выделиться на рынке и др. Стоит проанализировать изменения на любом из популярных веб-ресурсов, чтобы узнать, какие нововведения «прижились» за определенный промежуток времени.
Владельцы сайтов могут восстановить резервную копию веб-ресурса. А с помощью парсера можно сэкономить время и автоматизировать сбор информации в архиве.
Журналисты, исследователи и все желающие могут найти в архиве уникальную информацию, которую удалили. Это могут быть, например, данные о медийных лицах, политических деятелях или событиях, удаленных с сайтов в результате цензуры.
Историю веб-ресурса стоит проверять и перед покупкой домена. Важно, чтобы в прошлом на сайте не публиковался запрещенный или вредоносный контент.
Можно восстановить ценные данные после взлома сайта хакерами.

«По состоянию на 4 февраля 2024 года в Интернет-архиве хранится более 44 миллионов печатных материалов, 10,6 миллиона видеозаписей, 1 миллион программных программ, 15 миллионов аудиофайлов, 4,8 миллиона изображений, 255 000 концертов и более 835 миллиардов веб-страниц в Wayback Machine. Его миссия — обязаться обеспечить «всеобщий доступ ко всем знаниям». Internet Archive, Wikipedia

Благодаря этому можно проследить историю изменения сайта с момента возникновения, найти информацию, которую удалили, и даже восстановить свой сайт, когда нет резервной копии.

Первой и самой известной организацией, которая хранит сайты и цифровые материалы в некоммерческих целях, является Internet Archive, основанная Брюстером Кейлом. Основным ее продуктом является сервис Wayback Machine. Инструмент сохраняет веб-страницы и позволяет изучать их эволюцию и, при необходимости, восстанавливать отдельные страницы или целые сайты. Кроме Internet Archive, история интернета хранится на серверах различных библиотек, архивов и государственных учреждений.

Чтобы воспользоваться возможностями Wayback Machine, нужно просто зайти на сайт web.archive.org. На нем размещены копии страниц, которые начали создаваться с 1998 года.

📌 Читайте статью: Анализ скорости сайта: как ускорить загрузку сайта

Какие еще есть интернет-архивы?

Archive.today работает с 2012 года. В отличие от Wayback Machine, он не использует поисковых роботов и архивирует страницы только по запросу пользователей. Сайт имеет несколько зеркал, в частности archive.is, archive.li, archive.ph.
Library of Congress содержит значительное количество цифровых материалов, которые отражают культурное, историческое и политическое наследие США и мира.
Perma.cc — это некоммерческий сервис, который сохраняет интернет-источники для цитирования в научных работах. Он создан специально для академических, научных и правовых организаций.

На сайте Perma.cc продемонстрировано, как быстро происходит повреждение ссылок на сайте: через год после создания сайта более 20% ссылок могут быть недоступны, а через 5 лет более 50%. Это подтверждает необходимость добавления страниц в веб-архив.

Визуальная демонстрация повреждений ссылок со временем

Как работает Wayback Machine?

Рассмотрим возможности web.archive.org на примере анализа сайта forbes.ua. Видим, что копии сайта начали создаваться впервые еще с самого начала функционирования Wayback Machine. Больше всего — с 2021 года и до сих пор. Это заметно на графике хронологии архивирования веб-страниц.

Графике хронологии архивирования веб-страниц

Размер голубых точек, которыми обозначены сохранения, отображает количество копий, созданных в конкретную дату. Чем больше диаметр, тем больше архивирования сайта было выполнено в этот день. Об успешном создании копий свидетельствует и зеленый цвет. А вот оранжевый указывает на допущенные во время архивации ошибки. О наличии критических ошибок при попытках архивирования свидетельствует красная окраска.

Следовательно, для просмотра оптимально выбирать голубые точки. Выберем для нашего сайта одну из них, например, за 4 июня 2014 г. Если нажать на этот день в календаре архива, открывается страница сайта, какой она была в то время, при этом все ссылки активны. В некоторых случаях можно выбрать точное время сканирования из нескольких предложенных сервисом вариантов.

Страница сайта в веб-архиве за 4 июня 2014 г.

Отсюда можем перейти к любой другой дате. Например, вот так выглядела эта же страница новостей в августе 2022 года.

Изменение страницы новостей на сайте через определенное время

Если необходимо посмотреть архивную копию страницы за определенную дату, введите в поиск Google запрос по шаблону http://web.archive.org/web/20210323/https://forbes.com, где 20220224 — год, месяц и день, а https://www.forbes.com — адрес нужного вам сайта.

Архивная копия страницы за определенную дату

Посетители сайта Wayback Machine могут воспользоваться предложенными сервисом инструментами:

Calendar
Collections
Changes
Summary
Site Map
URLs

📌 Что такое: Что такое GDPR, персональные данные и cookie

Например, инструмент «Коллекции» демонстрирует причины архивации различных URL-адресов. Коллекциями в данном случае называют группы сканирования, которые имеют определенные цели или направлены на конкретные группы доменов, например, страницы с неработающими ссылками или региональные веб-ресурсы.

Демонстрация причины архивации различных URL-адресов

Чтобы рассмотреть дополнительную информацию о той или иной коллекции, нажмите на нее.

Следующий инструмент — Changes. Он позволяет ознакомиться с изменениями в содержимом заархивированных страниц. Голубым обозначен добавленный контент, желтым — удаленный.

Нужно выбрать две даты для сравнения и нажать кнопку Compare. Вы сможете рассмотреть одновременно два варианта страницы за 1 апреля 2022 года и за эту же дату 2023 года.

Сравнение вариантов страниц за разные даты

Вместо адреса страницы можно вводить поисковый запрос, в таком случае сервис выдаст страницы сохраненных сайтов на данную тематику.

Выдача страниц сохраненных сайтов на определенную тематику

Инструмент Summary позволяет ознакомиться со статистикой за любой промежуток времени, которая представлена в виде графиков и таблиц.

Статистика сайта в виде графика и таблицы за определенный период

Инструмент Site Map демонстрирует данные в виде визуальной карты сайта с диаграммой для каждого года. Центральный круг является «корнем» сайта, а последующие кольца последовательно представляют различные страницы сайта.

Чтобы перейти к архиву определенного URL-адреса, следует просто нажать на нужный участок.

Последняя вкладка под названием URLs показывает, сколько уникальных файлов содержится в архиве.

Как запретить добавление сайта в веб-архив?

Владелец сайта может запретить его добавление в веб-архив. Часто это делается с целью предотвращения незаконного копирования контента или перед продажей доменного имени. Для запрета следует обратиться в службу поддержки веб-архива или использовать файл robots.txt. Кроме этого, вебкраулеры не посещают сайты, которые защищены паролем.

В первом случае нужно отправить запрос на адрес info@archive.org, указав доменное имя в тексте сообщения.

Добавление в файл robots.txt специальной директивы блокирует доступ для веб-краулеров, однако предыдущие заархивированные страницы будут оставаться доступными в Wayback Machine. Пользователи все равно смогут посмотреть, как сайт выглядел раньше.

Директива для запрета доступа вебкраулеров выглядит следующим образом:

User-agent: ia_archiver

Disallow: /

User-agent: ia_archiver-web.archive.org

Disallow: /

Помните о том, что файл robots.txt должен находиться в корневом каталоге домена.

Как восстановить сайт из Web Archive?

Чтобы создать копию URL-адреса и добавить его в архив, нужно ввести нужную ссылку на главной странице Wayback Machine и нажать «Save page».

Как создать копию URL-адреса и добавить ее в архив

Желательно делать это перед внесением серьезных изменений на сайте. Благодаря этому вы сможете восстановить веб-ресурс через архив в случае сбоя, взлома хакерами или потери данных.

Конечно, создавать копию всего сайта постранично — слишком длительная и рутинная работа. Интернет-архив предлагает для автоматизации этого процесса платный сервис Archive It.

Если страницу удалили раньше, чем она смогла попасть в веб-архив, можно найти ее в кэше Google. Для этого нужно ввести в адресную строку ссылку типа cache:URL, где URL — адрес страницы, которая вам нужна. Например,

cache:https://www.forbes.com

Однако этот метод хранения не является совершенным, ведь в кэше хранится только самая актуальная копия каждой страницы. Поисковый робот постоянно заменяет старые версии страниц новыми, это может происходить как ежедневно, так и по крайней мере дважды в месяц.

Если вам нужна копия только одной или нескольких страниц, вы можете вручную скопировать текст и код страниц, а также сохранить изображения. Чтобы сохранить код страницы, перейдите на нее в Wayback Machine, нажмите правой кнопкой мыши и выберите «View page source». Скопируйте код и вставьте его в текстовый редактор, где вы можете сохранить его как HTML-файл.

Существуют также специальные скрипты, которые позволяют восстанавливать все содержимое сайта за один раз:

Wayback Machine Scraper;
Wayback Scraper;
Hartator Wayback Machine Downloader (Ruby).

Некоторые платные сторонние службы, такие как Wayback Machine Downloader, помогают с восстановлением сайта из веб-архива. Обычно протестировать их функционал можно бесплатно.

Сервис восстановления сайта из веб-архива

Бывают ситуации, когда ресурс доступен, но в копии отсутствуют картинки, или нет фрагмента контента. Это может быть связано с тем, что сайт был заархивирован Wayback Machine лишь частично. Возможно, версия сайта за другую дату или время будет более целостная.

Выводы

Веб-архивы позволяют хранить и воспроизводить историю интернета. Они обеспечивают доступ к старым версиям веб-страниц и других цифровых материалов для исследований, анализа и общего пользования. Часто это пригодится после серьезных хакерских атак на важные сайты.

Архив интернета — это некоммерческая библиотека книг, программного обеспечения, сайтов, аудио- и видеозаписей. Наиболее популярным является бесплатный веб-архив Wayback Machine. Копии интернет-страниц появляются в нем при сохранении вручную и благодаря сканированию веб-краулерами (специальными программами).

Отдельные частные компании и организации могут иметь собственные системы архивирования для внутреннего использования или для коммерческих целей.

Частые вопросы

Как работает Web Archive?

Веб-архив — это коллекция сайтов, которые были сохранены в исторических или справочных целях. Эти архивы фиксируют содержимое веб-страниц в разные моменты времени, позволяя пользователям просматривать более старые версии веб-ресурсов или страниц, которые могут больше не существовать в интернете.

Как зайти в веб-архив?

Чтобы зайти в веб-архив, нужно посетить сайт web.archive.org.

Как посмотреть старые сайты?

Пользователи могут посетить сайт Wayback Machine и ввести URL веб-страницы, которую они хотят просмотреть. После этого сервис осуществит поиск в своей базе данных и отобразит календарь доступных дат. Вы можете выбрать день и время, чтобы просмотреть архивную версию страницы в том виде, в котором она появилась именно тогда.

Где хранится история интернета?

История интернета хранится на различных ресурсах организаций, которые занимаются хранением цифрового контента и архивированием веб-страниц. Одним из самых известных и крупнейших хранителей истории интернета является некоммерческая организация Internet Archive, ключевым продуктом которой является Wayback Machine.

Где хранятся веб-страницы в интернете?

Отсканированные Web Archive страницы хранятся на серверах интернет-архива, где они упорядочены по URL-адресу, по дате и времени.

Как работает Wayback Machine?

Wayback Machine непрерывно сканирует интернет, посещая веб-сайты и индексируя их содержимое. Когда Wayback Machine наталкивается на веб-страницу, она делает снимок или скриншот ее содержимого, включая текст, изображения и другие мультимедийные элементы.

Recent Posts

Tags