Índice de Coincidência
Esta calculadora online calcula o índice de coincidência (IC, IOC) para o texto fornecido
Aqui está a calculadora que calcula o índice de coincidência, ou IOC (IC) para o texto fornecido. Você pode ler o que é o índice de coincidência e como ele é calculado abaixo da calculadora.
O índice de coincidência
O índice de coincidência é a probabilidade de duas letras selecionadas aleatoriamente serem iguais. William F. Friedman propôs essa métrica pela primeira vez em 1922 na Publicação Revierbank Número 22 intitulada "O índice de coincidência e suas aplicações na criptografia." Em 1967, o historiador David Kahn escreveu.
Publicação Revierbank Número 22, escrita em 1920, quando Friedman tinha 28 anos. Ela deve ser considerada a publicação mais importante na criptografia. Levou a ciência para um novo mundo. 1
Tendo a definição acima, é possível formar a fórmula para IOC.
Seja o comprimento do texto.
Seja o tamanho do alfabeto.
Seja a i-ª letra do alfabeto.
Seja o número de ocorrências da i-ª letra no texto.
Então, a probabilidade de ter dois selecionados é
A probabilidade total (que é o IOC) é a soma das probabilidades para cada letra:
Observe que às vezes o IOC é "normalizado". Isso geralmente é feito através da multiplicação do resultado por - o tamanho do alfabeto.
A calculadora abaixo analisa o texto e calcula o IOC utilizando as fórmulas acima. Você também pode ler por que isso é tão importante abaixo da calculadora.
Por que o Índice de Coincidência é tão importante?
É importante porque conseguimos calcular o índice de coincidência esperado para um determinado idioma usando a frequência de letras do idioma. Com a frequência da letra como podemos aproximar o
como
. O que nos dá o seguinte:
Se for grande o suficiente, podemos aproximar a fração
como
, que nos dá o
Além disso, conseguimos calcular o índice de coincidência esperado para um texto totalmente aleatório - todas as letras têm a mesma frequência . Realmente é
.
Tendo um índice de coincidência esperado, você consegue estimar rapidamente o texto cifrado se suspeitar que ele foi produzido por uma das cifras "clássicas". Se o índice de coincidência for alto e próximo ao IC esperado para o idioma, o texto provavelmente foi criptografado utilizando cifra de transposição ou cifra de substituição simples (monoalfabética). Caso contrário, se o índice de coincidência for baixo e próximo ao IC esperado para um texto aleatório, o texto provavelmente foi criptografado usando uma cifra polialfabética.
De acordo com a Wikipédia,
O índice de coincidência é útil na análise de texto simples em linguagem natural e análise de texto cifrado (criptoanálise). Até mesmo quando o único texto cifrado está disponível para teste e as identidades das letras do texto simples estão disfarçadas, as coincidências no texto simples subjacente podem causar coincidências no texto cifrado. Esta técnica é utilizada para criptanálise da cifra de Vigenère, por exemplo. Para uma cifra polialfabética de chave repetida organizada em uma matriz, a taxa de coincidência dentro de cada coluna geralmente será maior quando a largura da matriz for um múltiplo do comprimento da chave, e este fato pode ser usado para determinar o comprimento da chave, que é o primeiro passo para quebrar o sistema. A contagem de coincidências pode ajudar a determinar quando dois textos estão escritos no mesmo idioma usando o mesmo alfabeto. (Esta técnica foi usada para examinar o suposto código da Bíblia). A contagem de coincidência causal para tais textos será distintamente maior do que a contagem de coincidência acidental para textos em diferentes idiomas, textos usando diferentes alfabetos ou textos sem sentido.2
-
David Kahn, The Code Breakers (Os Quebradores de Código), Macmillan, 1967. ↩
Comentários