Как получить все документы (doc, docx, xls, xlsx, pdf, ppt, pptx, …) связанные на веб-странице

curl https://www.domain.com/ | grep -Eo "(http|https)://[a-zA-Z0-9./?=_-]*.*(doc|docx|xls|xlsx|ppt|pptx|pdf)" | sort | uniq > list.txt | wget list.txt


Команда «curl https://www.domain.com/ | grep -eo «(http|https)://[a-za-z0-9./?=_-]*.*(doc|docx|xls|xlsx|ppt|pptx|pdf)» | sort | uniq > list.txt | wget list.txt» выполняет несколько действий. Сначала она использует утилиту «curl» для получения содержимого веб-страницы по указанному URL-адресу. Затем она передает результат в утилиту «grep», которая ищет строки, соответствующие заданному шаблону. Шаблон ищет ссылки, начинающиеся с «http» или «https» и содержащие расширения файлов «doc», «docx», «xls», «xlsx», «ppt», «pptx» или «pdf». Далее, утилита «sort» сортирует найденные ссылки, а «uniq» удаляет дубликаты. Результат сохраняется в файл «list.txt». Наконец, утилита «wget» загружает содержимое файла «list.txt». Альтернативой этой команде может быть использование других утилит для получения веб-страницы, поиска в тексте и загрузки файлов.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *