Русская кириллица в Интернете

Введение
Кодировки (encodings)
Раскладки клавиатуры (keyboard layouts)
Шрифты (fonts)
Уникод (Unicode)
Проблемы и решения до Уникода
Проблемы и решения вокруг Уникода

Введение

стандартный расширенный набор

кодовой таблицей

Русскому языку в этом отношении крупно не повезло.

Во-первых‚ русская кириллица не входит целиком в указанный стандартный набор.
Во-вторых‚ даже те символы кириллицы‚ которые совпадают с латинскими буквами (А‚ Е‚ Т‚ ...)‚ не могут кодироваться теми же байтами‚ так как порядок байтов должен соответствовать русскому алфавитному порядку (это важно для алфавитных сортировок).
Наконец‚ в третьих‚ что уж совсем обидно‚ для кириллицы отсутствует единая кодовая таблица (кодировка).

раскладка

совпадающие по начертанию буквы расположены на совершенно разных местах

совпадают с кодами русских букв

кодировками

клавиатуры

шрифтами

Разновидности русских кодировок

КОДИРОВОК

koi8-r - фактический стандарт для современных русских сетей, исторически связанный с сетью Relcom, используется в основном в UNIX-средах
CP1251 (windows-1251) - используется в основном в MS-Windows
MacCyrillic - используется в Apple Macintosh
ISO-8859-5 - используется в основном в X-Window, UNIX-среда
CP866 - используется в основном в MS-DOS и OS/2

транслитерация

Разновидности раскладок русской клавиатуры

раскладок русской клавиатуры

Первая близка к русской печатной машинке ("русский стандарт", так называемый йцукен по шести самым левым верхним буквам). Вторая ориентирована на привычки человека, постоянно работающего с латиницей ("западный стандарт", "фонетическая" - яверты или иногда - яшерты).

Программу‚ связывающую клавиатуру с операционной системой‚ называют драйвером клавиатуры.

Некоторые драйверы позволяют раздельно выбирать раскладку и кодировку. Таков‚ например‚ Cyrillic Keyboard. Другими словами‚ выбрав раскладку‚ скажем‚ йцукен‚ Вы можете затем выбрать кодировку‚ скажем‚ koi8-r или windows-1251.

Однако в других случаях раздельно выбирать кодировку и раскладку нельзя. В стандартной многоязычной поддержке Windows 95/NT, выбрав "русский язык" (иконка Ru)‚ Вы тем самым выбираете и кодировку - windows-1251. Драйвер Altkeyb также заставляет выбирать кодировку одновременно с раскладкой клавиатуры. Например‚ файл qwer1251.kbd задаёт раскладку яшерты для кодировки windows-1251.

Разновидности русских шрифтов

шрифтов

Представление конкретного русского шрифта в памяти компьютера часто подразумевает определённую кодировку, что и отражается в его названии (например, К8 Kurier - это шрифт русских букв стиля Kurier для кодировки КОИ8).

Уникод

The Unicode Standard, Version 2.0

Проблемы и решения до Уникода

Проблема перекодировок

Некоторые серверы способны распознавать кодировку, на которую настроен клиент и соответственно перекодировать пересылаемые данные. Другие предлагают выбрать кодировку‚ устраивающую Ваш навигатор.

Наконец‚ пересылаемый текст может содержать информацию о своей кодировке. Например‚ строка

Электронные письма также могут содержать указания о кодировке. Например‚ строка

Content-Type: text/plain; charset="Windows-1251"

Другими словами‚ при правильном оформлении Интернет-страниц (наличие информации о кодировке) и электронных писем‚ а также применении современных навигаторов и почтарей проблема перекодировок русских Интернет страниц для рядового интернавта перестаёт быть головной болью.

Однако не все правильно оформляют свои страницы‚ не все почтовые программы позволяют правильно указывать или читать указанную русскую кодировку. Наконец‚ устаревшие навигаторы "не понимают" указаний о кодировке. В основном именно поэтому теперь и приходится иногда мучиться с русскими текстами в Интернете.

Особенно неприятно‚ когда кодировка указана‚ но неверно. Если указана латиница‚ то это ещё не беда‚ потому что принимающая сторона её не портит (просто считает‚ что перекодировать не надо). А вот если указать неправильную русскую кодировку‚ то текст будет практически невозможно прочесть из-за неуместной перекодировки (или безуспешных попыток её выполнить).

Некоторые серверы подразумевают конкретную кодировку, но не сообщают об этом. Тогда приходится подбирать кодировку клиента "вручную". Русские телеконференции (группы новостей) обычно работают в koi8-r‚ хотя сообщения не всегда информируют о ней.

Программы‚ выполняющие преобразование из одной кодировки в другую‚ называются обычно конверторами (от английского convert - преобразовывать). Неплохая коллекция полезных конверторов собрана на сайте syber. К их помощи приходится прибегать‚ когда‚ скажем‚ не удаётся прочесть важный текст.

Илья Сандлер изготовил удобный online конвертор для всех русских кодировок. Достаточно указать адрес странички, ее исходную и желательную кодировки, чтобы довольно быстро увидеть ее перекодированной. Удобно конвертировать и файлы, в том числе и в "русскую латиницу" (но не обратно!), пригодную для посылки любой почтой. К сожалению, при перекодировке в cp866 пропадает буква "а".

Проблема шрифтов и раскладок

Применение Уникода позволяет несколько упростить задачу. Дело в том‚ что шрифты‚ основанные на Уникоде (например‚ "родные" шрифты Windows 95/NT Arial, Times New Roman, Courier New) содержат так называемые скрипты‚ подмножества символов‚ соответствующие национальным алфавитам‚ в том числе кириллице. Так что Вы можете выбрать‚ скажем‚ шрифт Arial, и писать в нём и на английском‚ и на финском‚ и на русском.

Редактор (например‚ WordPad Windows 95 или MS Word 97) сам подберёт нужный скрипт. Скажем‚ для кириллицы Вы увидите в поле шрифтов редактора виртуальный‚ т.е . самостоятельно не существующий шрифт Arial Cyr.

Проблемы и решения вокруг Уникода

WordPad в Windows 95

Проблема старых русских шрифтов

Указанная проблема "лечится" корректировкой шрифтов (например‚ программой SNKDecoder). Перекодировать документы‚ содержащие старые шрифты‚ можно конвертором Cyrfonts.zip‚ который можно загрузить с сайта Microsoft.

Бывает, что приходится работать с одним документом на разных компьютерах, где установлены, скажем, на первом MS Word 6.0, а на втором MS Word 97. Тогда для перехода с первого компьютера на второй придётся пользоваться конвертором Cyrfonts, а для перехода обратно было бы естественно запоминать документы MS Word 97 в формате Word 6.0. Такой режим есть, однако для русских букв он не работает, насколько я знаю (проверить тщательнее!).

Дополнительную информацию о русификации Интернета можно найти в Russification Fundamentals и на подробной странице Андрея Чернова (особенно полезной для профессионалов).

Hа оглавление Интернет-гида

Последнее изменение 17.9.1998