On 14/10/2024 12:13, Eugene Berdnikov wrote:
. wget -p выдаёт нечто кое-как читаемое, но без оформления. archive,is -
практически идеальная копия [9]https://archive.is/TukSR
В man wget поищите mirror, convert links и ограничение глубины рекурсии.
Первый раз, когда увидел wget, я подумал, что это такой тонкий сарказм.
Четверть века назад это более-менее работало. Сейчас без полноценного
браузера много сайтов вообще ничего не захотят показывать. А на
горизонте уже маячат проверки, что используется авторизованная сборка
браузера, работающая в контролируемом окружении.
Cloudflare даже описание оригинального markdown не даст прочитать, пока
не обнюхает вдоль и поперек своим JavaScript.
<https://daringfireball.net/projects/markdown>
В мире, где активно продают организацию DDoS, защиту он них, защиту от
web scraping и т.д. просто статических страниц становится все меньше.
Иногда надо захватывать не просто то, что отрисовалось вначале, а вполне
определенное состояние документа. Есть несколько браузерных расширений,
которые это могут делать, например,
<https://github.com/danny0838/webscrapbook/>
У меня в заметках есть несколько ссылок, но я внимательно не смотрел и
не уверен, что есть что-то действительно полезное.
<https://habr.com/ru/companies/first/articles/584838/>
1shaman 3 ноя 2021 в 11:00
Создаём личный «Архив интернета»
<https://github.com/iipc/awesome-web-archiving>
Awesome Web Archiving