JlA 9×10 Parentescos con compresión: de genes a lenguas

Podemos reconstruir parentescos biológicos y lingüísticos usando compresores sin pérdida. La distancia de compresión nos permite medir similitud sin conocer el contenido en detalle.

Estos programas detectan patrones repetidos y los referencian en lugar de escribirlos de nuevo. Si un archivo contiene muchas repeticiones, al comprimirlo ocupa menos, así estimamos su complejidad de forma sencilla.

Para estimar cuán parecidos son dos genomas o dos textos, los comprimimos por separado y también juntos tras concatenarlos. Si comparten información, el tamaño comprimido del conjunto no crece mucho, porque el compresor reutiliza patrones. Si apenas comparten, no hay ahorro y el tamaño crece como si fueran independientes.

A partir de esas distancias por pares construimos árboles filogenéticos o dendrogramas que agrupan por cercanía. Con genomas de humanos y chimpancés el método suele colocarlos casi juntos, y también separa bien especies más lejanas. Con traducciones de un mismo documento, como la Declaración Universal de los Derechos Humanos, se agrupan familias de lenguas de forma bastante natural.

La gracia es su generalidad. No necesitamos alineamientos, modelos evolutivos ni conocimiento experto del dominio. A cambio, la precisión puede ser menor que la de métricas específicas, y conviene cuidar detalles prácticos como usar el mismo compresor, el mismo formato de entrada y volúmenes similares de datos. Nada de magia oscura, solo matemáticas comprimidas.

Si queremos probarlo, bastan tres pasos. Elegimos un compresor sin pérdida como zip o gzip, preparamos los archivos con la misma codificación y calculamos distancias a partir de tamaños comprimidos individualmente y concatenados. Con esa matriz alimentamos un algoritmo sencillo de agrupamiento y obtenemos una historia aproximada.

Para jugar y aprender, organizamos una mini liga en la que comparamos pares de textos desconocidos, apostamos puntos por nuestras predicciones y validamos con la compresión real. Quien más acierte en pocas rondas propone el siguiente reto.

Visitemos JeiJoLand.