inicio mail me! sindicaci;ón

Archive for February, 2008

Un cd mejorado

A menudo echaba en falta poder hacer

pablo@golgi:~$ cd dir1/dir2/

sin preocuparme de si

dir1/

y/o

dir2/

estaban creados, confiando en que

cd

los crearía.

Si bien se puede hacerle un hack al fuente de bash, es más laborioso que crear una función para la shell y añadirla a

.bashrc

:

ccd () {
if [ $# == 1 ]; then
if [ -d $1 ]; then
cd $1;
else
mkdir -p $1 && cd $1;
fi;
else
if [ $# == 0 ]; then
cd $HOME;
else
printf “Too many arguments\n”;
fi;
fi;
}

Por ejemplo:

pablo@golgi:~/md$ ccd d1/d2

(no existen ni d1/ ni d2/, así que los crea)

pablo@golgi:~/md/d1/d2$ cd ../..
pablo@golgi:~/md$ ccd d1/d2

(ya existen d1/ y d2/, así que no los crea)

pablo@golgi:~/md/d1/d2$ cd ../..
pablo@golgi:~/md$ ccd d1 d2
Too many arguments
pablo@golgi:~/md$ ccd
pablo@golgi:~$

Y ahora lo que hecho en falta es un plugin para wordpress que represente código adecuadamente.

Redes de computadoras

Un libro de uno de los míticos: Andy Tanenbaum. Junto con Silberschatz y Stallings creo que son la biblioteca básica de cualquier estudiante de ciencas de la computación.

800 y pico páginas, casi tan tocho como sus otros libros. Escrito en un tono muy cercano y ameno, y posiblemente gracias a esa forma de transmitir conocimiento le hayan dado el premio Karl V. Karlstrom.

El libro pretende ser una introducción a todo lo que es el campo de las redes de computadoras, tratando desde los niveles más bajos (sin mucha profusión) hasta los niveles más altos. Habla de normalización, de estándares y de las instituciones que se ocupan de ellos. Trata ligeramente el medio físico, procurando abarcar desde fibra óptica a satélites. A la capa de enlace le otorga casi doscientas páginas, para luego pasar a la capa de red. En la capa de red, aparte de algoritmos de enrutamiento, habla un poco de congestión y de calidad de servicio. Le siguen el nivel de transporte, protocolos del nivel de aplicación y seguridad en redes, donde repasa la criptografía simétrica y la de clave pública, además de hablar de certificados, SSL, PGP, S/MIME, IPsec, etc.

El libro es un must-read: una primera lectura sirve para introducirnos en (¿casi?) todos los temas de redes, lecturas posteriores como libro de referencia pueden ser útiles para reintroducirnos en algún aspecto en el que queramos trabajar, ya que además el libro finaliza con una extensa lista de bibliografía para profundizar más en ese tema en concreto.

Desde luego recomiendo su lectura, aunque cuesten las 800 páginas, tanto en términos de tiempo como de dinero (45 o 50 euros, aunque es fácil de encontrar en bibliotecas).

Pequeño parche para BlueZ/hcitool

Hace más de un mes trabajando con hcitool detecté lo que a mi juicio era un bug muy tonto y de fácil solución, así que me puse a ello, hice un parche y lo envié a los desarrolladores de BlueZ…

Copy+paste del mensaje que envié a la lista bluez-devel:

Hi! If I want to scan on hci0 the next sintax is bad, but hcitool
doesn't complain:
pablo@golgi:~$ hcitool hci0 scan
pablo@golgi:~$
(I better should use hcitool -i hci0 scan)

I've written a little patch to warn when an unrecognised command is given:

pablo@golgi:~/work/hcitool-patch1/utils/tools$ diff -u hcitool.c.orig
hcitool.c
--- hcitool.c.orig	2007-12-28 20:06:58.000000000 +0100
+++ hcitool.c	2007-12-29 11:35:00.000000000 +0100
@@ -2329,5 +2329,11 @@
 		command[i].func(dev_id, argc, argv);
 		break;
 	}
+
+	if(!command[i].cmd) {
+		fprintf(stderr, "\"%s\" isn't a valid command. Try --help for a list
of commands.\n", argv[0]);
+		exit(1);
+	}
+
 	return 0;
 }

Now, when I ask for an inexistent command it complains:
pablo@golgi:~$ ./hcitool nop scan
"nop" isn't a valid command. Try --help for a list of commands.
pablo@golgi:~$

If you find it useful, feel free to commit it.

Bye.

La verdad es que el parche es tontísimo y no sé si lo aplicarán, pero hay queda, por si a alguien le vale para algo. Me dio más guerra seguir el coding style que hacer el propio parche (por aquí va el hilo).

Update: me acabo de fijar que me dieron más indicaciones para el coding style de las que seguí (no las vi), razón adicional para omitir el parche.

Beginning Perl for Bioinformatics

El mayor fallo que le achaco a este libro es que está muy poco actualizado desde 2001 que es de cuando data la primera edición. Al leer el texto se nota en algunas partes que haría falta alguna revisión.

Mi intención cuando lo compré era leer algo que me introdujera en la bioinformática y refrescar un poco el

perl

, que de no usarse las cosas se oxidan.

El

perl

que se trata en el libro es muy básico, como cabía esperar, ya que el libro está orientado para biólogos (o similares) sin apenas conocimientos de informática –aunque alguno sí: tener instalado un Unix, aunque sea MacOS X, sí se hace necesario. Apenas se profundiza en el lenguaje, pero realmente para mí tampoco era esa la intención (para eso probablemente el Programming Perl de Larry Wall, o el de Damian Conway sean más adecuados). Creo que para un biólogo sí puede ser un texto recomendable, ya que presenta una serie de ejemplos en

perl

muy bien comentados, y desde mi punto de vista es fácil de seguir –igual que para un biólogo un texto de bioquímica también le será fácil de asimilar :).

De los trece capítulos del libro los seis primeros tratan de introducir

perl

: expresiones regulares, variables, subrutinas, el depurador, acceso a ficheros, etc.

Además en la web del libro están todos los ejercicios resueltos, así como una librería de funciones útiles para la bioinformática (al menos para empezar, porque gran parte de esas funciones ya están en Bioperl).

Y la bioinformática: el texto sirve para introducirse un poquito en qué es lo que se hace, aunque dada mi falta de conocimientos en biología se me queda un tanto cojo. En el libro se menciona el paso de ADN a proteína. Presenta varios métodos para realizar el proceso, para que el lector se familiarice con

perl

y que vea cómo se trabaja con expresiones regulares y conozca las hashes de

perl

.

De ADN a proteína

Biológicamente una cadena de ADN es una secuencia de bases nucleotídicas, y bases nucleotídicas hay cinco: adenina, timina, uracilo guanina y citosina, de las cuales en el ADN están todas presentes a excepción del uracilo (que reemplaza a la timina en el ARN).

Estas secuencias en perl se representan como cadenas de caracteres, así una cadena de ADN que sea adenina, citosina y guanina se representa como

‘ACG’

.

Cada tres bases forman lo que se llama un codón, y cada codón codifica un aminoácido. Habiendo cuatro bases y tres bases por codón, un codón podría tener hasta 64 valores diferentes (i.e. codificar 64 aminoácidos diferentes). Sin embargo, en la naturaleza sólo hay 20 aminoácidos, por lo que parte de esas secuencias no tienen significado (código degenerado), otras tienen el mismo significado (p.ej. UUU y UUC codifican la dos la fenilalanina), y otras simplemente son códigos de parada: le indican a la maquinaria celular que la cadena ha llegado al final.

En la célula quien hace las tareas son las proteínas: las proteínas son quienes componen mayoritariamente la máquina celular, las que hacen que esa maquinaria trabaje, y en definitiva son las que dirijen el cotarro. Qué proteínas se deben fabricar y cuándo es tarea de los genes: cuando un gen se expresa se inicia un proceso de transcripción que da lugar a una cadena de ARN mensajero a partir de una cadena de ADN. Ese ARN mensajero (ARNm) pasa por un proceso de traducción en los ribosomas de la célula. Los ribosomas toman codones de ARNm y por cada codón el aminoácido señalado por el codón. El ribosoma va uniendo estos aminoácidos y formando una cadena: la proteína. Posteriormente esa proteína se pliega, según condiciones de temperatura y pH se pliega de una manera o de otra, y según cómo se pliege realizará su función de una manera o de otra, o no la realizará.

En definitiva, este proceso de transcripción y traducción a efectos computacionales no deja de ser una simple sustitución de cada tres caracteres (sin solapamiento) de una cadena de ADN por su caracter correspondiente, si lo hay, que represente un aminoácido. Por ejemplo, la cadena

‘ACGGGAGGA’

pasa a ser

‘TGG’

. Las equivalencias entre codones y aminoácidos son casi universales: en todos los organismos son las mismas (la excepción la suponen las mitocondrias y algunos protistas).

Realizar esta traducción en

perl

es trivial. En el BPfB se presentan tres métodos: uno usa hashes en plan

%codigo{‘ACG’}=’T’

, los otros dos usan expresiones regulares:

if ($codon =~ /UU[CU]/){return ‘P’;}

El GenBank y el PDB
También toca el tema de las bases de datos que guardan información biológica: el GenBank y el Protein Data Bank, aunque sin profundizar en la interfaz de

perl

con las bases de datos más allá de los

.

El GenBank es una de las bases de datos donde se almacenan genes. Hay una especificación de formato para los ficheros GenBank, y entre otros datos almacena la posición del gen, la especie a la que pertenece el gen, el ADN del gen, la transcripción de ese ADN y unas cuantas anotaciones más.

El Protein Data Bank guarda información similar pero para las proteínas: qué cadena de aminoácidos, y qué atomos y en qué posición están esos átomos. La posición de esos átomos es muy importante, así como la forma que adquiere la proteína, ya que de ello depende su función. Además determinar esta forma es computacionalmente muy costoso ya que se trata de un problema intratable (aunque en el PDB se obtiene mediante cristalografía de rayos X y resonancia magnética nuclear).

El penúltimo capítulo se dedica a BLAST. BLAST es un programa que sirve para comprobar el alineamiento de distintas secuencias de ADN, y así comprobar la similitud entre las secuencias. Hay varias versiones, hay versiones que comprueban cadenas de nucleótidos con cadenas de nucleótidos, otras cadenas de nucleótidos con aminoácidos, etc. La similitud se comprueba de manera estadística, y de hecho viene comentada en un paper del año 1990.