Как получить список доменных имен всех существующих доменов (из Википедии)

curl -s http://en.m.wikipedia.org/wiki/List_of_Internet_top-level_domains | sed -n '/

/{s/]*>//g;p}'


Команда curl используется для получения содержимого веб-страницы. В данном случае, команда скачивает содержимое страницы http://en.m.wikipedia.org/wiki/List_of_Internet_top-level_domains.

Команда sed используется для манипуляции текстом. В данной команде, sed применяется с опцией -n, чтобы отключить автоматический вывод строк. Затем, с помощью выражения ‘/

/{s/]*>//g;p}’, sed ищет строки, содержащие ‘

‘, удаляет все HTML-теги с помощью выражения ‘s/]*>//g’, и выводит результат.

Таким образом, команда curl -s http://en.m.wikipedia.org/wiki/List_of_Internet_top-level_domains | sed -n ‘/

/{s/]*>//g;p}’ позволяет получить список доменных имен всех существующих доменов из страницы Википедии. Альтернативным подходом может быть использование инструментов для парсинга HTML, таких как BeautifulSoup в Python.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *