Codificação de arquivo de texto

Você pode usar esta calculadora para codificar um texto com uma codificação.

No artigo anterior, eu já toquei no tópico de codificações de texto, descrito em mais detalhes Unicode e sua representação UTF-8 como uma sequência de caracteres de comprimento variável.
Esta calculadora consegue converter texto em inúmeras codificações desatualizadas. Eu as chamo de desatualizadas porque, em aplicativos modernos, é possível usar Unicode e sua representação mais conveniente, UTF-8.
Entretanto, codificações antigas também podem ser úteis quando você precisa codificar o texto de forma compacta, por exemplo, para compressão e transmissão subsequentes, quando a parte receptora sabe com certeza em qual codificação o texto é transmitido. Por exemplo, o texto Russo codificado em Windows-1251 ocupará metade do espaço do texto em UTF-8.
Sendo assim, a calculadora a seguir permite que você baixe um arquivo na codificação selecionada ou visualize um dump hexadecimal do texto codificado.

PLANETCALC, Texto codificado

Texto codificado

Arquivo
 
Hex dump
 



Você pode visualizar o arquivo criado utilizando o Decodificador de arquivo de texto.

A calculadora retornará um erro se uma codificação incompatível for selecionada. No caso do Unicode, isso não é possível - ele contém caracteres de todas as línguas modernas. Entretanto, as codificações desatualizadas de 8 bits contêm um conjunto limitado de caracteres. Para texto em vários idiomas, a codificação requerida pode não ser encontrada.
Nos anos anteriores ao Unicode, muitas codificações foram inventadas para diferentes idiomas e conjuntos de caracteres, portanto, escolher a codificação certa para o seu texto pode ser uma tarefa difícil. A calculadora a seguir encontra todas as codificações compatíveis com o texto inserido.

PLANETCALC, Escolha a codificação do texto

Escolha a codificação do texto

O arquivo é muito grande; pode ocorrer lentidão do navegador durante o carregamento e a criação.

As calculadoras suportam 70 codificações diferentes:

IBM EBCDIC

EBCDIC - codificação padrão de 8 bits desenvolvida pela IBM para uso em mainframes IBM.

Codificação Idiomas / Países
EBCDIC 424 Hebraico Hebraico
EBCDIC 037 EUA/Canadá EUA, Canadá, Portugal, Brasil, Austrália, Nova Zelândia, África do Sul
EBCDIC 1026 Turco Turco
EBCDIC 500 Internacional Internacional
EBCDIC 875 Grego Grego

Codificações ISO 8859

Família de codificações compatíveis com ASCII desenvolvidas pela Organização Internacional de Normalização (ISO) e Comissão Eletrotécnica Internacional (IEC)

Codificação Idiomas / Países
ISO 8859-2 (Latim-2) Idiomas da Europa Oriental usando o alfabeto Latino
ISO 8859-5 Cirílico
ISO 8859-6 Árabe
ISO 8859-7 Grego Moderno
ISO/IEC 8859-1 (Latim-1) Idiomas da Europa Ocidental
ISO/IEC 8859-10 (Latim-6) Idiomas do Norte da Europa
ISO/IEC 8859-11 Tailandês
ISO/IEC 8859-13 (Latim-7) Estoniano, Letão, Lituano
ISO/IEC 8859-14 Idiomas Celtas
ISO/IEC 8859-15 (Latim-9) Idiomas da Europa Ocidental
ISO/IEC 8859-16 (Latim-10) Idiomas da Europa Oriental usando o alfabeto Latino
ISO/IEC 8859-3 Turco, Maltês, Esperanto
ISO/IEC 8859-4 (Latim-4) Estoniano, Letão, Lituano, Groenlândia, Sámi
ISO/IEC 8859-8 Hebraico
ISO/IEC 8859-9 Turco

Família de codificação KOI8

KOI8 - codificação compatível com ASCII de 8 bits para representar letras do alfabeto Cirílico

Codificação Idiomas
KOI8-R Russo
KOI8-U Ucraniano

Codificações Mac OS

Codificação Idiomas / Países
Mac OS Celta Idiomas Celtas
Mac OS Gaélico Gaélico
Mac OS Europa Central Idiomas da Europa Central
Mac OS Croata Croata
Mac OS Cirílico Cirílico
Mac OS Grego Grego
Mac OS Islandês Islandês
Mac OS Inuíte Inuíte
Mac OS Romano Idiomas da Europa Ocidental
Mac OS Romeno Romeno
Mac OS Turco Turco

Páginas de Código DOS

Codificações para MS-DOS e sistemas operacionais semelhantes.

Codificação Idiomas / Países
DOS Latim EUA (CP437) Idiomas da Europa Oriental usando o alfabeto Latino
DOS Grego (CP737) Grego
DOS Baltic Rim (CP775) Estoniano, Letão, Lituano
DOS Latim 1 (CP850) Idiomas da Europa Ocidental
DOS Latim 2 (CP852) Idiomas da Europa Oriental usando o alfabeto Latino
DOS Cirílico (CP855) Cirílico
CP 856 Hebraico Hebraico
DOS Turco (CP857) Turco
DOS Português (CP860) Português
DOS Islandês (CP861) Islandês
DOS Hebraico (CP862) Hebraico
DOS Francês Canadense (CP863) Francês
DOS Árabe (CP864) Árabe
DOS Nórdico (CP865) Nórdico
DOS Russo Cirílico (CP866) Russo
DOS Grego 2 (CP869) Grego

Codificações do Windows

Codificação Idiomas / Países
Windows-1250 Idiomas da Europa Central e Oriental
Windows-1251 Russo, Ucraniano, Bielorrusso, Sérvio, Macedônio, Búlgaro
Windows-1252 Idiomas da Europa Ocidental
Windows-1253 Grego Moderno
Windows-1254 Turco
Windows-1255 Hebraico
Windows-1256 Árabe
Windows-1257 Estoniano, Letão, Lituano
Windows-1258 Vietnamita
Windows-874 Tailandês
Windows-932 Japonês
Windows-936 Chinês Simplificado
Windows-949 Coreano
Windows-950 Chinês Tradicional
KZ-1048 Cazaque

Outros

Codificação Descrição
Atari ST Codificação usada em computadores pessoais domésticos Atari
GSM 03.38 A codificação foi usada em redes GSM para SMS, CB (transmissão de mensagens curtas) e USSD
KPS 9566 Uma codificação desenvolvida na Coreia do Norte para suportar o Hangul, os caracteres coreanos
ISO Urdu de 8 bits (IBM CP1006) A codificação usada pela IBM no sistema operacional AIX no Paquistão para o idioma Urdu
ISO-IR-68 Codificação para representar caracteres na linguagem de programação APL

As regras para converter codificações para Unicode foram obtidas no site unicode.org1.


  1. Mapeamentos de codificação Unicode: http://www.unicode.org/Public/MAPPINGS/ 

URL copiado para a área de transferência
PLANETCALC, Codificação de arquivo de texto

Comentários