Как разбить строку на символы python
Перейти к содержимому

Как разбить строку на символы python

  • автор:

Как в Python разбить строку на символы

3 простых способа, которые можно использовать в работе и пет-проектах.

Иллюстрация: Оля Ежак для Skillbox Media

Дмитрий Зверев

Дмитрий Зверев

Любитель научной фантастики и технологического прогресса. Хорошо сочетает в себе заумного технаря и утончённого гуманитария. Пишет про IT и радуется этому.

А зачем, собственно, в Python разбивать строки на символы? Например, для того, чтобы проверять правильность пароля и почты клиента, когда он регистрируется в онлайн-сервисе.

Скажем, на нашем сайте есть требование: в пароле должны быть как минимум одна заглавная, одна строчная буква и одна цифра. Мы можем написать скрипт на Python, который проверяет каждый символ и выносит вердикт: верный пароль или нет.

Если вы ещё не знакомы с Python, советуем прочитать нашу статью, в которой мы рассказываем, как быстро и бесплатно изучить этот замечательный язык программирования.

Циклы for и while, или метод «в лоб»

Как работает: проходит по каждому символу в строке и добавляет его в отдельный список.

Самый примитивный способ поделить строку на символы — сделать это с помощью циклов. Выбираем нужные символы из строки и складываем в список.

Выглядит это так:

Генераторы списков — то же, что и for, но короче

Как работает: делает то же самое, что и цикл for, но записывается всего в одну строчку.

password = 'f#da94AAd' symbols = [symbol for symbol in password] print(symbols)
['f', '#', 'd', 'a', '9', '4', 'A', 'A', 'd']

Здесь мы использовали встроенную в Python возможность — list comprehension. Термин сложно перевести на русский, поэтому его называют генератором списков.

Суть простая — это обычный цикл for, который записывается в одну строчку. Чтобы понять, как он работает, перепишем код выше в виде обычного цикла for:

# symbols = [symbol for symbol in password] symbols = [] for symbol in password: symbols += symbol

В короткой записи мы указываем, из какого списка берём элементы — in password, как будем именовать текущий элемент — for symbol, и что делаем с самим элементом — просто сохранять в неизменном виде: symbol.

�� Генераторы списков позволяют записывать длинный цикл for в одну строку. Это полезно, когда не нужно сильно изменять данные, а нужно просто сохранить их.

Функция list — для самых продуктивных

Как работает: делает то же самое, что и циклы for и while, но сокращает количество строк кода.

Когда не хотим писать даже пару строк кода, но разложить строку на символы всё ещё нужно, на помощь приходит функция list. Она превращает набор элементов в список:

password = 'f#da94AAd' symbols = list(password) print(symbols)
['f', '#', 'd', 'a', '9', '4', 'A', 'A', 'd']

Получили такой же результат, но использовали всего одну строку кода. Очень неплохо.

Проверим работу функции проверки пароля:

if check_password(symbols): print('Пароль верный') else: print('Пароль неверный')
'Пароль верный'

�� Функция list — самая лаконичная. Чтобы получить список символов, из которых состоит строка, достаточно просто вызвать функцию со строкой в качестве аргумента.

Что запомнить

Выделим главные тезисы из статьи:

  • использование циклов for и while — это самый простой, но не самый эффективный способ достать из строки все символы;
  • генераторы списков — это удобная и короткая замена цикла for;
  • применение функции list — самый короткий способ разбить строку на символы.

Читайте также:

  • Словари в Python: что нужно знать и как пользоваться
  • «Прошёл модуль курса и начал рассылать резюме»: музыкант, который стал питонистом
  • Создаём первую игру на Python и Pygame

Как разбить строку на отдельные символы?

Как её разбить на отдельные символы? Понимаю, что data.split() , но только не понятно, что в split() писать. Заранее спасибо.

Отслеживать
51.4k 87 87 золотых знаков 268 268 серебряных знаков 508 508 бронзовых знаков
задан 12 ноя 2011 в 15:09
1,678 4 4 золотых знака 28 28 серебряных знаков 49 49 бронзовых знаков

10 ответов 10

Сортировка: Сброс на вариант по умолчанию

result = list(data) 

Отслеживать
49.3k 17 17 золотых знаков 57 57 серебряных знаков 101 101 бронзовый знак
ответ дан 12 ноя 2011 в 16:23
899 8 8 серебряных знаков 18 18 бронзовых знаков

list() не нужно вызывать, data уже последовательность в Питоне. str это встроенное имя—лучше не использовать его как имя своей переменной.

28 ноя 2016 в 22:04

data уже является последовательностью ( data[i] работает). Ничего вызывать не надо.

К примеру, чтобы напечатать каждый символ на отдельной строке:

for char in text: print(char) 

Что можно кратко записать: print(‘\n’.join(text)) . Если нужен именно Питон список, то просто chars = list(text) .

Если вы работаете с текстом, то используйте Unicode. Юникодные строки в Питоне являются неизменямыми последовательностями символов (Unicode code points).

Видимые пользователем буквы (grapheme clusters) могут состоять из нескольких символов, к примеру, ё буква может быть представлена как последовательность двух символов: U+435 U+308 в Unicode— u’\u0435\u0308′ в Питоне:

>>> print(u'\u0435\u0308') ё 

Каждый символ может быть представлен в различных кодировках одним или несколькими байтами, к примеру, букву я (U+044F) можно закодировать в два байта: 11010001 10001111 в utf-8 кодировке:

>>> print(u'\u044f') я >>> u'\u044f'.encode('utf-8') b'\xd1\x8f' # два байта: 209, 143 

Байты/байтовая строка ( bytes тип) это неизменяемая последовательность байт в Питоне.

str тип является bytes в Питоне 2. str является Unicode в Питоне 3.

Кроме того существует понятие code unit (8 бит в utf-8, 16 бит в utf-16). Строки в Javascript можно часто рассматривать как последовательности utf-16 code unit (может иметь значение при переносе функциональности в Питон), к примеру, смайлик �� (U+1F602) символ представлен как два code unit: D83D DE02 в utf-16(BE) кодировке:

>>> print(u'\U0001F602') �� >>> u'\U0001F602'.encode('utf-16be') b'\xd8=\xde\x02' # четыре байта: 216, 61, 222, 2 

То есть, если у вас текст, представленный как str в Питоне 3 (Юникод), то вы можете его рассматривать как различные последовательности в зависимости от задачи:

>>> import regex # $ pip install regex >>> text = 'я �� ё' # 6 code points >>> print(ascii(text)) '\u044f \U0001f602 \u0435\u0308' >>> regex.findall(r'\X', text) # 5 grapheme clusters ['я', ' ', '��', ' ', 'ё'] # 5 user-perceived characters >>> utf16codeunits(text) # 7 utf-16 code units (1103, 32, 55357, 56834, 32, 1077, 776) >>> text.encode('utf-16be') # 14 bytes in utf-16 b'\x04O\x00 \xd8=\xde\x02\x00 \x045\x03\x08' >>> text.encode('utf-8') # 12 bytes in utf-8 b'\xd1\x8f \xf0\x9f\x98\x82 \xd0\xb5\xcc\x88' 

Разбиение строки на список символов в Python

Баннер Баннер

Часто в программировании возникает необходимость разбить строку на отдельные символы. Например, имеется строка «Привет, мир!». Целью может быть получение списка, содержащего все символы данной строки, то есть [‘П’, ‘р’, ‘и’, ‘в’, ‘е’, ‘т’, ‘,’, ‘ ‘, ‘м’, ‘и’, ‘р’, ‘!’].

Однако, при попытке использовать метод str.split() для достижения этой цели, результатом будет не список символов, а список слов. Этот метод разделяет строку на слова, используя пробелы в качестве разделителя.

text = "Привет, мир!" print(text.split()) # Результат: ['Привет,', 'мир!']

Это не то, что нужно в данном случае.

В Python есть несколько способов разбить строку на символы. Первый и самый простой способ — использовать функцию list() . Если передать строку в функцию list() , она вернет список, где каждый элемент — это отдельный символ строки.

text = "Привет, мир!" print(list(text)) # Результат: ['П', 'р', 'и', 'в', 'е', 'т', ',', ' ', 'м', 'и', 'р', '!']

Альтернативный способ — использовать list comprehension, или генератор списков. Это позволяет более тонко контролировать процесс разбиения строки на символы.

text = "Привет, мир!" print([char for char in text]) # Результат: ['П', 'р', 'и', 'в', 'е', 'т', ',', ' ', 'м', 'и', 'р', '!']

Оба этих способа прекрасно справляются с задачей разбиения строки на список символов, и выбор между ними зависит от конкретной ситуации и личных предпочтений.

Как сделать разбиение строки на массив символов python

Строки в Python поддерживают протокол итерации. Можно использовать это свойство строки, чтобы разбить её на список (массив) символов:

name = 'hexlet' list(name) # => ['h', 'e', 'x', 'l', 'e', 't'] 

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *