¿qué es CLUES?

De forma intiuitiva CLUES es una herramienta que apaga los nodos que no están siendo utilizados en un cluster y los enciende bajo demanda y en tiempo real. CLUES se integra con el gestor de recursos local existente y realiza su actividad de forma transparente al usuario final.

¿por qué CLUES?

Muchos ordenadores están encendidos aún cuando no están siendo utilizados: servidores de ficheros, servidores de impresión, controladores de dominio, servidores de aplicaciones, ordenadores de usuario para realizar procesos de actualización, etc. Este es un problema que también ocurre, a una escala mucho mayor, en el caso de infraestructuras específicas como clusters o despliegues cloud y más aún si tenemos en cuenta aspectos adicionales como los sistemas de refrigeración necesarios para mantener la temperatura. En algunos casos, el derroche energético puede suponer más del 70% del tiempo (considerando la jornada laboral como el tiempo de uso de la máquina).

¿dónde se puede utilizar CLUES?

CLUES se puede utilizar en cualquier cluster que sea manejado mediante un gestor de recursos locales (LRMS, del inglés Local Resource Management System), bien sea un gestor de colas como OpenPBS/Torque, Oracle Grid Engine, etc. o un gestor de máquinas virtuales como OpenNebula. En algunos casos se pueden encontrar conectores ya desarrollados, pero en caso de que no se disponga del conector correspondiente al subsistema que tiene instalado, puede contactar con nosotros o realizar usted mismo el desarrollo del conector particular.

En este caso le agradeceríamos que nos lo comunicase, para incorporarlo a la base de conectores disponibles para el resto de usuarios. Nosotros tratamos de enriquecer la base de conectores, en base a la solicitud por parte de los usuarios, y de mejorar aquellos ya disponibles (tanto los nuestros como los aportados por los usuarios externos).

¿cómo funciona CLUES?

El sistema CLUES se encarga de monitorizar la utilización de los gestores de recursos locales mediante una serie de plug-ins de integración. Una vez CLUES detecta que un nodo no ha sido utilizado durante un tiempo, éste se considera candidato a ser apagado. Si ningún sistema integrado en CLUES reclama su utilización, el nodo se apaga, se hiberna o pone en modo de stand-by.

Cuando un usuario solicita la ejecución de un trabajo (lanzándolo a la cola) o realiza una petición de máquina virtual, CLUES verifica si los nodos que hay en funcionamiento podrán atender la solicitud. En caso de que no se cuente con recursos suficientes, CLUES tratará de poner en funcionamiento los nodos necesarios para que la tarea pueda ser ejecutada.

¿el usuario se ve afectado por la actividad de CLUES?

Dentro de los objetivos de diseño de CLUES se encuentra el afectar lo mínimo posible a la interacción del usuario con el cluster y tratamos de que la apariencia sea en todo momento como si el cluster se encontrara siempre completamente encendido. Así, el usuario que lance un trabajo se verá afectado únicamente en caso de que no hayan encendidos los nodos necesarios para realizar la ejecución o puesta en funcionamiento de la máquina virtual. En estos casos tendrá que esperar a que se enciendan los nodos, pero este tiempo suele ser razonablemente corto en el caso de los nodos internos de un cluster. Además CLUES trata de hacer una previsión de la demanda de futuros trabajos y enciende nodos en exceso para que subsiguientes solicitudes esperen lo menos posible.

¿en qué se diferencia CLUES del resto?

Algunos gestores de colas como SLURM u Oracle Grid Engine (el antiguo Sun Grid Engine) indican en sus instrucciones que son capaces de realizar tareas similares. Sin embargo CLUES permite no solo integrarse con virtualmente cualquier Sistema de Gestion de Recursos Locales, sino también realizar políticas de planificación de encendido y apagado de máquinas mixtas entre distintos middlewares de control.

De esta forma CLUES puede integrarse tanto con los propios SLURM y SGE (OGE), como con otros sistemas de colas como LSF, OpenPBS/Torque, etc. Por otro lado CLUES también puede integrarse con otros sistemas de gestión de recursos dedicados al Cloud Computing (en particular, dedicados al IaaS), como OpenNebula o los próximos middlewares cloud dedicados al PaaS.

Además con CLUES se puede realizar una integración simultánea de distintos subsistemas que convivan en un cluster. De esta forma se puede disponer de sistemas compartidos que son gestionados mediante un LRMS como Torque y un Gestor de Infraestructuras Virtuales como OpenNebula y realizar una política de ahorro de energía simultánea de forma coordinada.

© GRyCAP - UPV, Edificio 8B - Universidad Politécnica de Valencia - 46022, Valencia.
Contacto: +34963877023, Fax: +34963877274
nota legal