Как извлечь заголовок из HTML-файла

sed -n 's/.*\(.*\).*/\1/ip;T;q' file.html</code></p> <hr> <p>Команда <code>sed -n 's/.*<title>\(.*\).*/\1/ip;T;q' file.html</code> используется для извлечения заголовка из HTML-файла. Она применяет скрипт <code>s/.*<title>\(.*\).*/\1/ip;T;q</code> к содержимому файла <code>file.html</code>.</p> <p>Пояснение скрипта:<br /> — <code>s/.*<title>\(.*\).*/\1/ip</code> — заменяет всю строку на содержимое заголовка, извлеченное из тега <code><title></code> внутри <code><title>. Флаг i делает шаблон регистронезависимым, а флаг p выводит только строки, в которых произошла замена.
T — переходит к следующей строке, если замена не произошла (т.е. если строка не содержала заголовка).
q — завершает выполнение скрипта после извлечения первого заголовка.

Альтернативой может быть использование инструментов, таких как AWK или Perl, для обработки HTML-файлов и извлечения данных.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *