Строки и символы

Коды символов

Любой текст состоит из символов. Символ — это некоторый значок, изображение. Один и тот же символ можно записать по-разному, например, два человека по-разному напишут от руки букву “A”, и даже в компьютерном представлении одна и та же буква будет выглядеть по-разному, если ее отображать разными шрифтами, при этом это будет все равно один и тот же символ. Верно и другое: разные символы могут быть записаны одинаково, например, вот две разные буквы, одна — латинского алфавита, другая - русского: “A” и “А”. Несмотря на то, что они выглядят одинаково, удобней считать их разными символами.

Итак, способ хранения текстовой информации в компьютере не связан напрямую с изображением этого текста. Вместо символов хранятся их номера - числовые коды, а вот то, как выглядит символ с данным числовым кодом на экране напрямую зависит от того, какой используется шрифт для отображения символов. При этом, разумеется, следовало бы договориться о единообразном способе кодирования символов числовыми кодами, иначе текст, записанный на одном компьютере, невозможно будет прочитать на другом компьютере.

Первоначально договорились под кодирование одного символа отвести один байт, то есть 8 бит информации. Таким образом можно было закодировать 256 различных значений, то есть в записи текста можно использовать 256 различных символов. Этого достаточно, чтобы отобразить все символы латинского алфавита, цифры, знаки препинания и некоторые другие символы. Стандарт, указывающий, какие числовые коды соответствуют каким основным символам, называется ASCII. В таблицу ASCII включены символы с кодами от 0 до 127, то есть ASCII - это семибитный код. Вот так выглядит таблица ASCII:

Char  Dec   Hex | Char  Dec   Hex | Char  Dec   Hex | Char Dec    Hex
---------------------------------------------------------------------
(nul)   0  0x00 | (sp)   32  0x20 | @      64  0x40 | `      96  0x60
(soh)   1  0x01 | !      33  0x21 | A      65  0x41 | a      97  0x61
(stx)   2  0x02 | "      34  0x22 | B      66  0x42 | b      98  0x62
(etx)   3  0x03 | #      35  0x23 | C      67  0x43 | c      99  0x63
(eot)   4  0x04 | $      36  0x24 | D      68  0x44 | d     100  0x64
(enq)   5  0x05 | %      37  0x25 | E      69  0x45 | e     101  0x65
(ack)   6  0x06 | &      38  0x26 | F      70  0x46 | f     102  0x66
(bel)   7  0x07 | '      39  0x27 | G      71  0x47 | g     103  0x67
(bs)    8  0x08 | (      40  0x28 | H      72  0x48 | h     104  0x68
(ht)    9  0x09 | )      41  0x29 | I      73  0x49 | i     105  0x69
(nl)   10  0x0a | *      42  0x2a | J      74  0x4a | j     106  0x6a
(vt)   11  0x0b | +      43  0x2b | K      75  0x4b | k     107  0x6b
(np)   12  0x0c | ,      44  0x2c | L      76  0x4c | l     108  0x6c
(cr)   13  0x0d | -      45  0x2d | M      77  0x4d | m     109  0x6d
(so)   14  0x0e | .      46  0x2e | N      78  0x4e | n     110  0x6e
(si)   15  0x0f | /      47  0x2f | O      79  0x4f | o     111  0x6f
(dle)  16  0x10 | 0      48  0x30 | P      80  0x50 | p     112  0x70
(dc1)  17  0x11 | 1      49  0x31 | Q      81  0x51 | q     113  0x71
(dc2)  18  0x12 | 2      50  0x32 | R      82  0x52 | r     114  0x72
(dc3)  19  0x13 | 3      51  0x33 | S      83  0x53 | s     115  0x73
(dc4)  20  0x14 | 4      52  0x34 | T      84  0x54 | t     116  0x74
(nak)  21  0x15 | 5      53  0x35 | U      85  0x55 | u     117  0x75
(syn)  22  0x16 | 6      54  0x36 | V      86  0x56 | v     118  0x76
(etb)  23  0x17 | 7      55  0x37 | W      87  0x57 | w     119  0x77
(can)  24  0x18 | 8      56  0x38 | X      88  0x58 | x     120  0x78
(em)   25  0x19 | 9      57  0x39 | Y      89  0x59 | y     121  0x79
(sub)  26  0x1a | :      58  0x3a | Z      90  0x5a | z     122  0x7a
(esc)  27  0x1b | ;      59  0x3b | [      91  0x5b | {     123  0x7b
(fs)   28  0x1c | <      60  0x3c | \      92  0x5c | |     124  0x7c
(gs)   29  0x1d | =      61  0x3d | ]      93  0x5d | }     125  0x7d
(rs)   30  0x1e | >      62  0x3e | ^      94  0x5e | ~     126  0x7e
(us)   31  0x1f | ?      63  0x3f | _      95  0x5f | (del) 127  0x7f

При этом символы с кодами, меньшими 32 - это специальные управляющие символы, которые не отображаются на экране. Например, для того, чтобы обозначить конец строки в системе Linux используется один символ с кодом 10, а в системе Windows - два подряд идущих символа с кодами 13 и 10, символы с кодами 48-57 соответствуют начертанию арабских цифр (обратите внимание, символ с кодом 0 - это вовсе не символ, отображающийся на экране, как “0”), символы с кодами 65-90 - заглавные буквы буквы латинского алфавита, а если к их кодам прибавить 32, то получатся строчные буквы латинского алфавита. В промежутках между указанными диапазонами находятся знаки препинания, математические операции и прочие символы.

Но в ASCII-таблицы нет русских букв! А также нет букв сотен других национальных алфавитов. Первоначально для отображения букв национальных алфавитов использовали вторую половину возможного значения байта, то есть символы с кодами от 128 до 255. Это приводило к множеству проблем, например, поскольку 128 значений явно недостаточно для того, чтобы отобразить символы всех национальных алфавитов (даже недостаточно для того, чтобы отобразить символы одного алфавита, например, китайской письменности. Поэтому в настоящее время для кодирования символов используется стандарт Unicode, последняя версия 6.0 которого (октябрь, 2010) включает свыше 109000 различных символов. Естественно, для кодирования Unicode-символов недостаточно одного байта на символ, поэтому используются многобайтовые кодировки (для представления одного символа необходимо несколько байт).

Язык программирования Python — современный язык, поэтому он работает исключительно с Unicode-символами.

Код символа можно определить при помощи функции ord. Эта функция получает на вход строку, которая должна состоять ровно из одного символа. Функция возвращает код этого символа. Например, ord('A') вернет число 65.

Обратная функция получения по числовому коду его номера называется chr.

Сравнение символов

Поскольку для символов заданы их числовые коды, то их можно сравнивать при помощи операций сравения. Поскольку символы алфавита идут подряд, то результат их сравнения будет соответствовать лексикографическому порядку, но можно сравнивать между собой не только буквы алфавита, но и два произвольных символа.

Также в питоне определены и операции сравнения строк, которые также сравниваются в лексикографическом порядке.

Строки и списки

Строки в языке Питон, в отличии от списков, являются неизменными объектами, то есть в отличии от списков нельзя изменить отдельный символ строки: операция A[i] = ... является допустимой, если A  список, и недопустимой, если A — строка.

Один символ в строке можно поменять, если создать новую строку, например, следующий код меняет i-й символ строки на символ @.

A = A[:i] + '@' + A[i + 1:]

К сожалению, подобное изменение требует время, пропорциональное длине строки.

Преобразование строки S в список символов A:

A = list(S)

Преобразование списка символов в строку:

S = ''.join(A)

Упражнения

A: Таблица ASCII

Выведите все символы ASCII с кодами от 33 до 126 и их коды в следующем виде:

Вывод
! 33
" 34
# 35
...
} 125
~ 126

B: От омеги до коппы

Напишите программу, которые выводит исторические кириллические символы, начиная с омеги и заканчивая коппой.

Программа должна вывести заглавные буквы, их коды — чётные числа от 1120 до 1152, разделяя символы пробелом.

Вывод
Ѡ Ѣ Ѥ Ѧ Ѩ Ѫ Ѭ Ѯ Ѱ Ѳ Ѵ Ѷ Ѹ Ѻ Ѽ Ѿ Ҁ 

С: Следующий символ

Дан один символ. Выведите следующий за ним символ в таблице ASCII.

Ввод Вывод
A
B
z
{

D: Символы в заданном интервале

Выведите подряд, без пробелов, все символы, лежащие в таблице ASCII между двумя заданными символами.

Программа получает на вход два символа, каждый в отдельной строке и должна вывести строку, начинающуюся первым из заданных символов и заканчивающуюся вторым.

Ввод Вывод
A
D
ABCD
0
9
0123456789

E: isdigit

Для данного символа проверьте, является ли он цифрой.

Решение оформите в виде функции isdigit(c: str) -> bool.

В решении нельзя использовать циклы условную инструкцию. В решении нельзя использовать константы с неочевидным значением типа 48 или 57. Да и функция ord тоже не нужна.

Вызов функции Возвращаемое значение
isdigit('0')
True
isdigit('A')
False

Для тех, кто решил эту задачу. У строк в языке Python есть метод isdigit(), то есть использовать его нужно так: s.isdigit(). Если длина строки больше 1, то метод возвращает True, если все символы строки являются цифрами.

Помимо этого есть методы isalpha, isupper, islower, проверяющие, является ли символ буквой, заглавной буквой, строчной буквой. Об этих и других методах можно прочитать в документации.

F: upper

Напишите функцию upper(c: str) -> str, которая переводит символ в верхний регистр, то есть для строчной буквы латинского алфавита возвращает сооветствующую заглавную букву латинского алфавита, а для остальных символов возвращает тот же символ.

Вызов функции Возвращаемое значение
upper('f')
'F'
upper('F')
'F'
upper('4')
'4'

G: lower

Напишите функцию lower(s: str) -> str, которая переводит все символы данной строки в нижний регистр.

Вызов функции Возвращаемое значение
lower('Hello, world!')
'hello, world!'

Для тех, кто решил эту задачу. У строк в языке Python есть методы upper() и lower(), аналогичные данным. Об этих и других методах можно прочитать в документации.

H: Палиндром

Дано слово, состоящее только из заглавных и строчных латинских букв. Проверьте, верно ли что это слово читается одинаково как справа налево, так и слева направо (то есть является палиндромом), если считать заглавные и строчные буквы не различающимися.

Решение оформите в виде функции is_palindrome(s: str) -> bool, возвращающей значение типа bool.

Вызов функции Возвращаемое значение
is_palindrome('Radar')
True
is_palindrome('True')
False

I: Значение выражения - 1

Дана непустая строка, состоящая из \(n\) цифр (т.е. однозначных чисел), между которыми стоит \(n-1\) знак операции, каждый из которых может быть либо +, либо -. Вычислите значение данного выражения.

Решение оформите в виде функции evaluate(s: str) -> int, получающей в качестве аргумента строку и возвращающую ее значение.

Решение должно иметь сложность \(O(n)\), где \(n\) — длина строки.

Вызов функции Возвращаемое значение
evaluate('1+2-3')
0

J: Значение выражения - 2

Дано выражение одно из следующих видов: \(A+B\), \(A-B\) или \(A\ast B\), где \(A\) и \(B\) — целые неотрицательные числа. Определите значение этого выражения.

Решение оформите в виде функции evaluate(s: str) -> int, получающей в качестве аргумента строку и возвращающую ее значение.

Вызов функции Возвращаемое значение
evaluate('2*2')
4
evaluate('100-101')
-1

K: Количество слов

Дана строка, возможно, содержащая пробелы. Определите количество слов в этой строке. Слово — это несколько подряд идущих букв латинского алфавита (как заглавных, так и строчных).

Решение оформите в виде функции count_words(s: str) -> int, возвращающее значение типа int.

Вызов функции Возвращаемое значение
count_words('Yesterday, all my troubles seemed so far away')
8

L: Самое длинное слово

Дана строка. Найдите в этой строке самое длинное слово и выведите его. Если в строке несколько слов одинаковой максимальной длины, выведите первое из них. Решение оформите в виде функции longest_word(s: str) -> str, возвращающей значение типа str. Если в строке нет ни одной буквы, функция возвращает пустую строку.

Вызов функции Возвращаемое значение
longest_word('In a hole in the ground there lived a hobbit.')
'ground'

M: Слова с прописной буквы

Дана строка. Измените регистр символов в этой строке так, чтобы первая буква каждого слова была заглавной, а остальные буквы - строчными.

Решение оформите в виде функции capitalize(s: str) -> str.

Вызов функции Возвращаемое значение
capitalize('In a hole in the ground there lived a hobbit.')
'In A Hole In The Ground There Lived A Hobbit.'

N: Максимальная буква

Дана строка. Определите максимальную букву, которая встречается в этой строке, при этом заглавные и строчные буквы нужно считать одинаковыми. Под буквой подразумеваются как русские, так и английские буквы, строка может содержать русские и английские буквы.

При решении задачи вам понадобятся методы строк, упомянутые раньше:

s.isalpha() — возвращает True или False, в зависимости от того, является ли символ буквой (все символы строки, если их несколько).

s.upper() — возвращает значение строки, переведённой в верхний регистр.

s.lower() — возвращает значение строки, переведённой в нижний регистр.

Решение оформите в виде функции max_char(s: str) -> str. Функция должна возвращать максимальную букву в верхнем регистре.

Если в данной строке нет символов, являющихся буквами, функция возвращает пустую строку.

Вызов функции Возвращаемое значение
max_char('Встретив двусмысленность, отбрось искушение угадать.')
'Ь'

O: Частота появления букв

Дана программа, которая может содержать ASCII-символы и русские буквы. Посчитайте, сколько раз в этой строке встречается каждый возможный символ. Выведите все встречающиеся в этой строке символы в порядке возрастания их кодов, а затем количество вхождений этого символа. Пробелы при этом игнорируйте (считаются только символы, чьи коды больше 32).

Задача должна решаться за однократный проход по данной строке. Для этого создайте список count, в котором значение count[i] будет равно количеству вхождений символа chr(i) в данную строку.

Максимальный код символа русского алфавита равен 1105 (для буквы «ё»).

Ввод Вывод
Встретив двусмысленность, отбрось искушение угадать.
, 1
. 1
В 1
а 2
б 1
в 2
г 1
д 2
е 4
и 3
к 1
л 1
м 1
н 3
о 3
р 2
с 6
т 5
у 3
ш 1
ы 1
ь 3

P: Самая частая буква

Дана строка содержащая буквы русского и латинского алфавитов и иные символы. Определите, какая буква (или какие буквы) в этой строке встречается чаще всего. При решении этой задачи заглавные и строчные буквы считаются одинаковыми, а прочие символы, не являющиеся буквами, не учитываются. Буква «Ё» в тексте не встречается. Заглавные и строчные буквы считаются одинаковыми.

Программа должна вывести в первой строке все буквы, которые встречаются чаще всего в исходной строке. Выводить буквы необходимо в заглавном написании, в алфавитном порядке, без пробелов. Во второй строке выведите единственное число - сколько раз в данной строке встречаются эти буквы.

При решении этой задачи нельзя пользоваться вложенными циклами. Входная строка должна обрабатываться за один проход.

Ввод Вывод Примечание
Beautiful is better than ugly. Красивое лучше, чем уродливое.

4
Программа выводит английскую букву «T», затем русскую букву «E»

Q: Анаграммы

Даны две строки. Определите, можно ли получить одну из другой перестановкой символов.

Программа получает на вход две строки, содержащие только ASCII-символы, не содержащие пробелы.

Программа должна вывести слово YES, если одна строка может быть получена из другой перестановкой букв или NO.

Заглавные и строчные буквы в этой задаче считаются различными.

Ввод Вывод
eleven_plus_two
twelve_plus_one
YES
Eleven_plus_two
Twelve_plus_one
NO

R: Пробелы после запятой

После запятой в тексте должен стоять пробел. Дана строка, вставкой пробелов в неё добейтесь выполнения этого правила. Не надо вставлять пробел, если он там уже есть.

Ввод Вывод
Question of Life,The Universe, and Everything
Question of Life, The Universe, and Everything

S: Шифр Цезаря

В шифре Цезаря каждый символ заменяется на другой символ, третий по счету в алфавите после данного, с цикличность. То есть символ A заменяется на D, символ B - на E, символ C - на F, ..., символ Z на C.

Дана строка, зашифруйте ее при помощи шифра Цезаря. Решение оформите в виде функции caesar_cipher(s: str, k: int) -> str, возвращающей новую строку. s — исходная строка, k — величина сдвига. Величина сдвига может быть произвольным целым числом, в том числе и отрицательным.

В тексте могут быть только заглавные английские буквы и символы ASCII, не являющиеся буквами.

Вызов функции Возвращаемое значение
caesar_cipher('IN A HOLE IN THE GROUND THERE LIVED A HOBBIT.', 3)
'LQ D KROH LQ WKH JURXQG WKHUH OLYHG D KREELW.'

T: Шифр замены - зашифровать сообщение

Шифр замены  обобщение шифра Цезаря. Каждая буква сообщения меняется на какую-то другую букву (разные буквы меняются на разные буквы). Символы, не являющиеся буквами, остаются такими же. Ключом шифрования является перестановка: указание того, на какую букву должна быть заменена каждая другая буква.

Вам дана строка, содержащая только заглавные латинские буквы и символы ASCII, не являющиеся буквами. Зашифруйте её при помощи шифра замены.

Решение оформите в виде функции substitution_cipher(msg: str, key: str) -> str, возвращающей новую строку с зашифрованным сообщением. msg — исходное сообщение, key — ключ шифрования.

Ключ шифрования представляет собой строку длиной 26, являющейся перестановкой символов от A до Z. В строке последовательно записаны буквы, в которые переходят буквы A, B, C, ..., Z исходного сообщения.

Вызов функции Возвращаемое значение
substitution_cipher('IN A HOLE IN THE GROUND THERE LIVED A HOBBIT.', 'ABCDIFGHEJKLMNUPQRSTOVWXYZ')
'EN A HULI EN THI GRUOND THIRI LEVID A HUBBET.'

U: Шифр замены - расшифровать сообщение

Расшифруйте сообщение, зашифрованное шифром замены.

Решение оформите в виде функции substitution_decipher(msg: str, key: str) -> str, возвращающей новую строку с расшифрованным сообщением. msg — зашифрованное сообщение, key — ключ шифрования, заданный как в предыдущей задаче.

Вызов функции Возвращаемое значение
substitution_decipher('EN A HULI EN THI GRUOND THIRI LEVID A HUBBET.', 'ABCDIFGHEJKLMNUPQRSTOVWXYZ')
'IN A HOLE IN THE GROUND THERE LIVED A HOBBIT.'

V: Значение выражения - 3

Дана строка, содержащая одно или более целых неотрицательных чисел, разделенных знаками “+” или “-”. Вычислите значение этого выражения.

Решение оформите в виде функции evaluate(s).

Вызов функции Возвращаемое значение
evaluate('21+7-10')
18

W: 12-часовой формат времени

Во многих англоговорящих странах время записывается в 12-часовом формате с указанием одного из двух 12-часовых интервалов: до полудня (a.m.) или после полудня (p.m.). Формально запись времени в 12-часовом формате выглядит, как строка “h:mm x.m.”, где h — число часов от 1 до 12 (однозначное или двухзначное), mm — число минут от 00 до 59, дополненное нулями до двух разрядов, x — одна из двух букв “a” или “p”. Подробней примеры записи времени и их перевод в 24-часовой формат можно найти в википедии.

Дана строка с записью некоторого времени в 12-часовом формате. Выведите его в 24-часовом формате “hh:mm” (hh — количество часов от 00 до 23, дополненное нулями до двух разрядов, mm — количество минут от 00 до 59, дополненное нулями до двух разрядов).

Ввод Вывод
1:00 a.m.
01:00
12:34 p.m.
12:34

X: IP-адрес

В сети интернет каждому компьютеру присваивается четырехбайтовый код, который принято записывать в виде четырех чисел, каждое из которых может принимать значения от 0 до 255, разделенных точками. Вот примеры правильных IP-адресов:

127.0.0.0
192.168.0.1
255.0.255.255

Программа получает на вход строку из произвольных символов. Если эта строка является корректной записью IP-адреса, выведите YES, иначе выведите NO.

Ввод Вывод
127.0.0.1
YES

Y: Детская задача

Хорошо известна задача-шутка, в которой требуется продолжить числовую последовательность:

1
11
21
1211
111221
312211
13112221
1113213211
...

Свойства данного ряда изучались математиками, а сама последовательность названа look-and-say sequence.

Напишите программу, которая по данному числу \(k\le 25\) выводит \(k\)-е число в этой последовательности.

Ввод Вывод
4
1211

Z: Шифр перестановки

В шифре перестановки меняется порядок следования букв, но сами буквы не меняются. При шифровании сообщение разбивается на блоки длины \(n\), символы внутри блока переставляются в соответствии с ключом. Ключ — это перестановка длины \(n\).

Дано сообщение и ключ шифрования, зашифруйте сообщение при помощи данного ключа.

Длина ключа может быть строкой длиной \(n\) (\(1 \le n \le 9\)), состоящей из неповторяющихся цифр от 1 до \(n\). Перестановка показывает, на какие позиции переходят символы блока с номерами 1, 2, ..., \(n\). То есть перестановка вида 51234 означает, что блок длины 5 циклически сдвигается вправо на 1 символ.

При шифровании сообщение разбивается на блоки длины \(n\), если длина сообщения некратна \(n\), то в конец сообщения дописываются точки.

Решение оформите в виде функции transposition_cipher(msg: str, key: str) -> str, где msg — исходное сообщение, key — ключ шифрования.

Вызов функции Возвращаемое значение
transposition_cipher('IN A HOLE IN THE GROUND THERE LIVED A HOBBIT', '312')
' INHA EOLN IH TGE URO NDETH REVLI EDHA BOB.IT'