unzip -p some.docx word/document.xml | sed -e 's/]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
Команда «unzip -p some.docx word/document.xml» извлекает содержимое файла «some.docx» и передает его на вход команде «sed». Команда «sed -e ‘s/]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'» удаляет все теги HTML и непечатаемые символы из полученного текста. Эта команда полезна, когда требуется получить только обычный текст из файлов MS Word .docx. Альтернативным подходом может быть использование программного обеспечения, специально разработанного для извлечения текста из документов MS Word, таких как программа для конвертации документов в текстовый формат. Аргумент «some.docx» указывает на файл, из которого нужно извлечь текст.