Основные тезисы
1. Строки являются ключевыми инструментами в современной обработке данных, поскольку наиболее полезными данными на самом деле являются именно строки. Например, при использовании поисковой машины в Интернете (которая в наши дни кажется довольно тривиальной) используется чрезвычайно сложная обработка строк, включающая невообразимые объемы данных.
2. Строгое сравнение строк (как это делает Python) может быть очень неудовлетворительным, когда дело доходит до расширенного поиска (например, во время обширных запросов к базе данных). В ответ на это требование было создано и реализовано несколько алгоритмов сравнения нечетких строк. Эти алгоритмы могут находить строки, которые не равны в смысле Python, но похожи.
Одним из таких понятий является расстояние Хэмминга, которое используется для определения сходства двух строк. Если Вас интересует эта проблема, Вы можете узнать о ней больше здесь: Расстояние Хэмминга. Другое решение того же типа, но основанное на другом предположении, - это расстояние Левенштейна, описанное здесь: Расстояние Левенштейна.
3. Другой способ сравнения строк - найти их акустическое сходство, что означает процесс, ведущий к определению, похожи ли две строки по звучанию (например, "raise" и "race"). Такое сходство необходимо устанавливать для каждого языка (или даже диалекта) в отдельности.
Алгоритм, используемый для такого сравнения для английского языка, называется Soundex и был изобретен - вы не поверите - в 1918 году. Подробнее о нем можно узнать здесь: Soundex.
4. Из-за ограниченной точности данных с плавающей запятой и целых чисел иногда целесообразно хранить и обрабатывать огромные числовые значения в виде строк. Это метод, который использует Python, когда Вы заставляете его работать с целым числом, состоящим из очень большого количества цифр.