You are here: Foswiki>Main/Cimec Web>UpgradingRedHatHowto (04 Apr 2003, MarioStorti)Edit Attach
Steps in upgrading the cluster from Red-Hat 5.2 to Red-Hat 7.1

  • El kernel de los nodos:

    • NO debe ser modular!! En make menuconfig deshabilitar la opcion "use modular kernel" (o algo por el estilo).

    • Hablitar Networking options/kernel level autoconfiguration/BOOTP support+RARP support

    • Habilitar NFS filesystem support/root filesystem on NFS y NFS filesystem support/NFS server support (este ultimo no sabemos bien porque)

  • En el kernel del server no hace falta nada. El server debe correr el `rarpd' daemon. a configuracion del daemon se hace agregando lineas en el archivo `/etc/ethers'. Las lineas son de la forma ' MAC-ADDRESS IP '. Por ejemplo '00:01:02:bf:8a:43 10.0.0.2'. Al lanzar el rarpd debe ser con la opcion `rarpd -e', sino no responde a los RARP requests. El `rarpd' loggea en `/var/log/messages'.

  • Al kernel del nodo hay que hacerle un `$ rdev bzImage /dev/nfsroot' para que monte el / en ese device. Si /dev/nfsroot no existe entonces se puede crear con $ mknod /dev/nfsroot b 0 2555

  • En el exports tuve que reemplazar `host (args)' por `host(args)', es decir, sacando las lineas porque si no se queja y no anda!!

  • Para recompilar las librerias: Newmat, meschach, MPI: hay que corregir un poco los fuentes, hay un parche

  • Hay que instalar el paquete f2c pero despues resulta que en realidad hay que usar la libreria libg2c. Para esto hay que tocar el archivo bmake/linux/base.site en PETSC.

  • /root deberia ser montado via nfs???

  • Fri Aug 31 09:53:24 ART 2001 Logramos una configuracion que anda bien. En el server usamos el kernel 2.2.16 ( el que viene con RH 7.0). Los problemas del nfsd se solucionan (en los newsgroups se reporto bastante que el kernel 2.4 tiene problemas con el nfsd).

La idea era poner tambien en los nodos el 2.2.16 pero tuve problemas para compilarlo, mientras que el 2.4 compila limpito. Entonces opte por poner el 2.4 en los nodos y dejar el 2.2.16 en el server.

El que esta en el server es el que viene directamente con Red-Hat, es decir el vmlinuz que viene en el paquete `kernel'.

  • Pasos:

    • Particionar nuevo disco con fdisk

    • Hacer el filesystem con `$ mke2fs /dev/hdc1', `$ mke2fs  /dev/hdc2', ...

    • Con las nuevas versiones el swap es un archivo /SWAP. (NO mas una particion adicional)

    • Para discos grandes conviene hacer una particion pequenha de 100Mb para el /boot. Agregar la linea correspondiente en /etc/fstab

    • Copiar cada particion con

	$ mount /dev/hdc4 /mnt/tmp
	$ cd /mnt/tmp
	$ tar -cpvlf - -C /usr . | tar xpf -

    • Tratar de bootear la version anterior con el disco copiado. Si da `Unable to open virtual console' es porque la particion que estas montatndo en / no contiene la particion esperada (`/'). Verificar que particion se monta en / en `lilo.conf' y tambien en /etc/fstab.

    • Hacer upgrade del SO en el nuevo disco.

    • Aparentemente en las nuevas versiones del kernel ya viene el driver de las 3COM incorporado y el `rarpd' daemon viene por separado (es el package `rarpd') de manera que EN EL SERVER se puede utilizar el kernel compilado que viene con la distribucion. Si no habria que asegurarse de incorporar el driver de la placa de red y habilitar el servidro de rarp.

    • Compilar kernel para nodos: Deshabilitar la opcion modular (kernel monolitico). - Incorporar opciones a) `Networking options support -> IP: auto level configuration' y b) `Filesystems -> Network Filesystems -> Root File system on NFS'.

    • Antes el `adcn' escribia un comando `rarp MACADDRESS IP' en un script en /etc/init.d. Ahora el rarpd daemon se inicializa leyendo la tabla de RARP del archivo `/etc/ethers' de manera que se mopdifico el `adcn' para que escriba estas lineas.

  • Cambio de la red 10.0.0.x a la 10.20.70.100+x: Por duplicacion de los IP de 10.0.0.1 con el gateway del CERIDE que utiliza para las subredes internas.

  • Ver la seccion ConfigurationFiles donde estan los networks scripts y diferentes /etc/hosts...

-- MarioStorti - 01 Sep 2001

  • syslogd: Los nodos 'loggean' (es decir, escriben mensajes en los archivos log de /var/log) en el server. Para eso hay que lanzar el syslog del server con la opcion '-r' (que habilita a otros a loggear a traves de el). Esto se hace agregando la linea SYSYSLOGD_OPTIONS="-r -m 0" al archivo /etc/sysconfig/syslog

-- MarioStorti - 20 Sep 2001

  • sendmail: Se detecta nuevamente mucha actividad en los `nfsd' del server. Se debe a que los `sendmail' de los nodos quieren mandar mail a `mstorti@intec.arcride.edu.ar', no pueden resolver la direccion y entran en un loop. (Habia mas de 9000 mails en el /var/spool/queue de cada nodo). La solucion es aliasear root a mstorti@node1 tanto en el server como en los nodos y forwardear por el .forward en mstorti.

-- MarioStorti - 24 Sep 2001

  • La version vieja del adcn no borraba los scripts en el directorio /etc/cron.d probablemente porque no existia. Tuvimos que agregarlo.

  • El kernel para los nodos es el /boot/bzImage.node.kernel2.4.11-Oct-2001 y su md5sum es


[mstorti@minerva mstorti]$ md5sum bzImage.node.kernel2.4.11-Oct-2001 
dc782280c4405e87961e9b08914ee7bd  bzImage.node.kernel2.4.11-Oct-2001


[mstorti@minerva mstorti]$ md5sum /dev/fd0
7f8f4b14f6f9a3f7f6325cfb12d000b8  /dev/fd0

[mstorti@minerva mstorti]$ md5sum bzImage.node.kernel2.4.11-Oct-2001.img 
7f8f4b14f6f9a3f7f6325cfb12d000b8 bzImage.node.kernel2.4.11-Oct-2001.img

Further changes to cluster scripts in ClusterAdministrationLog

-- MarioStorti - 02 Oct 2001
Topic revision: r11 - 04 Apr 2003, MarioStorti
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback