Обработка текстовых файлов
На этом уроке мы подготовим простой текстовый файл с небольшим, простым содержанием.
Мы собираемся показать Вам некоторые основные приемы, которые Вы можете использовать для чтения содержимого файла и его обработки.
Обработка будет очень простой - Вы скопируете содержимое файла в консоль и посчитаете все символы, которые считала программа.
Но помните - наше понимание текстового файла очень строго. В нашем смысле это простой текстовый файл - он может содержать только текст без каких-либо дополнительных декораций (форматирование, разные шрифты и т.д.).
Вот почему Вы должны избегать создания файла с использованием любого продвинутого текстового процессора, такого как MS Word, LibreOffice Writer или чего-то подобного. Используйте базовые редакторы, которые предлагает ваша ОС: Блокнот, vim, gedit и т.д.
Если Ваши текстовые файлы содержат некоторые национальные символы, не включенные в стандартную кодировку ASCII, Вам может потребоваться дополнительный шаг. При вызове функции open()
может потребоваться аргумент, обозначающий конкретную кодировку текста.
Например, если Вы используете ОС Unix/Linux, настроенную на использование UTF-8 в качестве общесистемного параметра, функция open()
может выглядеть следующим образом:
stream = open('file.txt', 'rt', encoding='utf-8')
где аргумент кодирования должен быть установлен в значение, представляющее собой строку, представляющую правильную кодировку текста (здесь UTF-8).
Обратитесь к документации по Вашей ОС, чтобы найти имя кодировки, соответствующее Вашей среде.
Примечание
Для целей наших экспериментов с обработкой файлов, проводимых в этом разделе, мы будем использовать предварительно загруженный набор файлов (например, tzop.txt или text.txt файлы), с которыми Вы сможете работать. Если Вы хотите работать со своими собственными файлами локально на своем компьютере, мы настоятельно рекомендуем Вам сделать это и использовать IDLE для проведения собственных тестов.