Codificação de arquivo de texto
Você pode usar esta calculadora para codificar um texto com uma codificação.
No artigo anterior, eu já toquei no tópico de codificações de texto, descrito em mais detalhes Unicode e sua representação UTF-8 como uma sequência de caracteres de comprimento variável.
Esta calculadora consegue converter texto em inúmeras codificações desatualizadas. Eu as chamo de desatualizadas porque, em aplicativos modernos, é possível usar Unicode e sua representação mais conveniente, UTF-8.
Entretanto, codificações antigas também podem ser úteis quando você precisa codificar o texto de forma compacta, por exemplo, para compressão e transmissão subsequentes, quando a parte receptora sabe com certeza em qual codificação o texto é transmitido. Por exemplo, o texto Russo codificado em Windows-1251 ocupará metade do espaço do texto em UTF-8.
Sendo assim, a calculadora a seguir permite que você baixe um arquivo na codificação selecionada ou visualize um dump hexadecimal do texto codificado.
Você pode visualizar o arquivo criado utilizando o Decodificador de arquivo de texto.
A calculadora retornará um erro se uma codificação incompatível for selecionada. No caso do Unicode, isso não é possível - ele contém caracteres de todas as línguas modernas. Entretanto, as codificações desatualizadas de 8 bits contêm um conjunto limitado de caracteres. Para texto em vários idiomas, a codificação requerida pode não ser encontrada.
Nos anos anteriores ao Unicode, muitas codificações foram inventadas para diferentes idiomas e conjuntos de caracteres, portanto, escolher a codificação certa para o seu texto pode ser uma tarefa difícil. A calculadora a seguir encontra todas as codificações compatíveis com o texto inserido.
As calculadoras suportam 70 codificações diferentes:
IBM EBCDIC
EBCDIC - codificação padrão de 8 bits desenvolvida pela IBM para uso em mainframes IBM.
Codificação | Idiomas / Países |
---|---|
EBCDIC 424 Hebraico | Hebraico |
EBCDIC 037 EUA/Canadá | EUA, Canadá, Portugal, Brasil, Austrália, Nova Zelândia, África do Sul |
EBCDIC 1026 Turco | Turco |
EBCDIC 500 Internacional | Internacional |
EBCDIC 875 Grego | Grego |
Codificações ISO 8859
Família de codificações compatíveis com ASCII desenvolvidas pela Organização Internacional de Normalização (ISO) e Comissão Eletrotécnica Internacional (IEC)
Codificação | Idiomas / Países |
---|---|
ISO 8859-2 (Latim-2) | Idiomas da Europa Oriental usando o alfabeto Latino |
ISO 8859-5 | Cirílico |
ISO 8859-6 | Árabe |
ISO 8859-7 | Grego Moderno |
ISO/IEC 8859-1 (Latim-1) | Idiomas da Europa Ocidental |
ISO/IEC 8859-10 (Latim-6) | Idiomas do Norte da Europa |
ISO/IEC 8859-11 | Tailandês |
ISO/IEC 8859-13 (Latim-7) | Estoniano, Letão, Lituano |
ISO/IEC 8859-14 | Idiomas Celtas |
ISO/IEC 8859-15 (Latim-9) | Idiomas da Europa Ocidental |
ISO/IEC 8859-16 (Latim-10) | Idiomas da Europa Oriental usando o alfabeto Latino |
ISO/IEC 8859-3 | Turco, Maltês, Esperanto |
ISO/IEC 8859-4 (Latim-4) | Estoniano, Letão, Lituano, Groenlândia, Sámi |
ISO/IEC 8859-8 | Hebraico |
ISO/IEC 8859-9 | Turco |
Família de codificação KOI8
KOI8 - codificação compatível com ASCII de 8 bits para representar letras do alfabeto Cirílico
Codificação | Idiomas |
---|---|
KOI8-R | Russo |
KOI8-U | Ucraniano |
Codificações Mac OS
Codificação | Idiomas / Países |
---|---|
Mac OS Celta | Idiomas Celtas |
Mac OS Gaélico | Gaélico |
Mac OS Europa Central | Idiomas da Europa Central |
Mac OS Croata | Croata |
Mac OS Cirílico | Cirílico |
Mac OS Grego | Grego |
Mac OS Islandês | Islandês |
Mac OS Inuíte | Inuíte |
Mac OS Romano | Idiomas da Europa Ocidental |
Mac OS Romeno | Romeno |
Mac OS Turco | Turco |
Páginas de Código DOS
Codificações para MS-DOS e sistemas operacionais semelhantes.
Codificação | Idiomas / Países |
---|---|
DOS Latim EUA (CP437) | Idiomas da Europa Oriental usando o alfabeto Latino |
DOS Grego (CP737) | Grego |
DOS Baltic Rim (CP775) | Estoniano, Letão, Lituano |
DOS Latim 1 (CP850) | Idiomas da Europa Ocidental |
DOS Latim 2 (CP852) | Idiomas da Europa Oriental usando o alfabeto Latino |
DOS Cirílico (CP855) | Cirílico |
CP 856 Hebraico | Hebraico |
DOS Turco (CP857) | Turco |
DOS Português (CP860) | Português |
DOS Islandês (CP861) | Islandês |
DOS Hebraico (CP862) | Hebraico |
DOS Francês Canadense (CP863) | Francês |
DOS Árabe (CP864) | Árabe |
DOS Nórdico (CP865) | Nórdico |
DOS Russo Cirílico (CP866) | Russo |
DOS Grego 2 (CP869) | Grego |
Codificações do Windows
Codificação | Idiomas / Países |
---|---|
Windows-1250 | Idiomas da Europa Central e Oriental |
Windows-1251 | Russo, Ucraniano, Bielorrusso, Sérvio, Macedônio, Búlgaro |
Windows-1252 | Idiomas da Europa Ocidental |
Windows-1253 | Grego Moderno |
Windows-1254 | Turco |
Windows-1255 | Hebraico |
Windows-1256 | Árabe |
Windows-1257 | Estoniano, Letão, Lituano |
Windows-1258 | Vietnamita |
Windows-874 | Tailandês |
Windows-932 | Japonês |
Windows-936 | Chinês Simplificado |
Windows-949 | Coreano |
Windows-950 | Chinês Tradicional |
KZ-1048 | Cazaque |
Outros
Codificação | Descrição |
---|---|
Atari ST | Codificação usada em computadores pessoais domésticos Atari |
GSM 03.38 | A codificação foi usada em redes GSM para SMS, CB (transmissão de mensagens curtas) e USSD |
KPS 9566 | Uma codificação desenvolvida na Coreia do Norte para suportar o Hangul, os caracteres coreanos |
ISO Urdu de 8 bits (IBM CP1006) | A codificação usada pela IBM no sistema operacional AIX no Paquistão para o idioma Urdu |
ISO-IR-68 | Codificação para representar caracteres na linguagem de programação APL |
As regras para converter codificações para Unicode foram obtidas no site unicode.org1.
-
Mapeamentos de codificação Unicode: http://www.unicode.org/Public/MAPPINGS/ ↩
Comentários