On 14/10/2024 12:13, Eugene Berdnikov wrote:
    . wget -p выдаёт нечто кое-как читаемое, но без оформления. archive,is -
    практически идеальная копия [9]https://archive.is/TukSR
  В man wget поищите mirror, convert links и ограничение глубины рекурсии.

Первый раз, когда увидел wget, я подумал, что это такой тонкий сарказм. Четверть века назад это более-менее работало. Сейчас без полноценного браузера много сайтов вообще ничего не захотят показывать. А на горизонте уже маячат проверки, что используется авторизованная сборка браузера, работающая в контролируемом окружении.

Cloudflare даже описание оригинального markdown не даст прочитать, пока не обнюхает вдоль и поперек своим JavaScript.
<https://daringfireball.net/projects/markdown>

В мире, где активно продают организацию DDoS, защиту он них, защиту от web scraping и т.д. просто статических страниц становится все меньше.

Иногда надо захватывать не просто то, что отрисовалось вначале, а вполне определенное состояние документа. Есть несколько браузерных расширений, которые это могут делать, например,
<https://github.com/danny0838/webscrapbook/>

У меня в заметках есть несколько ссылок, но я внимательно не смотрел и не уверен, что есть что-то действительно полезное.

<https://habr.com/ru/companies/first/articles/584838/>
1shaman 3 ноя 2021 в 11:00
Создаём личный «Архив интернета»

<https://github.com/iipc/awesome-web-archiving>
Awesome Web Archiving

Ответить