Как получить наиболее часто используемые слова в текстовом файле

cat WAR_AND_PEACE_By_LeoTolstoi.txt | tr -cs "[:alnum:]" "\n"| tr "[:lower:]" "[:upper:]" | awk '{h[$1]++}END{for (i in h){print h[i]" "i}}'|sort -nr | cat -n | head -n 30


Данная команда выполняет следующие действия:
1. Открывает файл «WAR_AND_PEACE_By_LeoTolstoi.txt».
2. Заменяет все символы, не являющиеся буквами и цифрами, на перенос строки.
3. Преобразует все буквы в верхний регистр.
4. С помощью awk подсчитывает количество вхождений каждого слова и сохраняет в массиве h.
5. В конце выводит результат, сортируя его по убыванию.
6. Команда «cat -n» номерирует строки вывода.
7. Команда «head -n 30» оставляет только первые 30 строк вывода.

Альтернативой данной команды может быть использование других инструментов для обработки текста, таких как grep, sed и perl.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *