Как извлечь обычный текст из файлов MS Word docx

unzip -p some.docx word/document.xml | sed -e 's/]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'


Команда «unzip -p some.docx word/document.xml» извлекает содержимое файла «some.docx» и передает его на вход команде «sed». Команда «sed -e ‘s/]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'» удаляет все теги HTML и непечатаемые символы из полученного текста. Эта команда полезна, когда требуется получить только обычный текст из файлов MS Word .docx. Альтернативным подходом может быть использование программного обеспечения, специально разработанного для извлечения текста из документов MS Word, таких как программа для конвертации документов в текстовый формат. Аргумент «some.docx» указывает на файл, из которого нужно извлечь текст.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *