Desarrollado en python
CLUES ha sido desarrollado completamente en python, por lo que se distribuye su código completo bajo la licencia Open Source GNU General Public License - version 3.0. Esta licencia permite a los usuarios realizar modificaciones siempre que mantengan el tipo de licencia en caso de distribución de los resultados.
Además, esto implica que CLUES es multi-plataforma, con la única restricción de que se pueda ejecutar el intérprete python y las librerías de las que depende. Dada la disponibilidad de este intérprete, el gestor CLUES puede ser utilizado en la mayoría de sistemas actuales.
Infraestructura heterogénea
Gracias al sistema de conectores, CLUES puede gestionar cualquier tipo de infraestructura, ya sea homogénea o heterogénea. Por lo tanto, se pueden encender y apagar equipos basados tanto en Microsoft WindowsTM como en Linux o AppleTM, bien sea de forma directa, o con el apoyo de sistemas PDU (Power Device Unit) o gestores de energía embebidos.
Multisistema
Gracias al sistema de conectores, CLUES se puede integrar con virtualmente cualquier sistema de gestión de recursos locales (LRMS), tanto con sistemas de colas como con gestores de infraestructuras Cloud Computing. Algunos ejemplos de conectores actualmente disponibles son los siguiente:
- Torque: este conector permite integrar Torque con CLUES, puesto que es uno de los sistemas de colas más populares en la comunidad científica. El conector aprovecha el sistema de callbacks de Torque para realizar la integración con CLUES. Además permite utilizar el sistema de colas de forma convencional, con todas sus opciones (tanto las habituales como aquellas menos utilizadas).
- SLURM: el mecanismo de integración con Torque permite que otros sistemas de colas como SLURM, que dispone de interfaces PBS puedan ser también integrados con CLUES.
- OpenNebula: este conector permite integrar OpenNebula con CLUES utilizando el sistema de hooks que incorpora el propio sistema gestor de infraestructura cloud. La granuralidad del trabajo en este caso es la máquina virtual, y se considera el número de CPUs y la cantidad de memoria como factores de determinación de los nodos que pueden ejecutar la máquina virtual. El sistema se encuentra completamente integrado y los usuarios simplemente tienen que interactuar con el sistema mediante los mecanismos convencionales tanto a nivel de comandos como de plantillas de máquinas virtuales.
- Sun Grid Engine: a pesar de que Sun Grid Engine dispone de un interfaz muy similar al de Torque, se ha creado un conector específico para integrar este sistema de colas con CLUES, con el fin de captar algunas de las peculiaridades. La forma de integración es muy similar a la utilizada con el otro sistema de colas, y la versatilidad conseguida es equivalente, pudiendo utilizar prácticamente cualquier opción de Sun Grid Engine.
- Globus Toolkit y gLite: estos dos middlewares Grid se integran con los sistemas de colas locales, comportándose como si fueran usuarios locales. Dado que los sistemas de colas como OpenPBS/Torque, Sun Grid Engine, SLURM, etc. se integran completamente con CLUES, una instalación de gLite o de Globus Toolkit queda integrada completamente.
Políticas de ahorro de energía adaptables
Con CLUES se pueden establecer políticas de ahorro de energía variables ya que, entre otras características, podemos ajustar las siguientes:
- Encendido por exceso para realizar una previsión de próximos trabajos. De esta forma se trata de mejorar la experiencia del usuario final del cluster, evitando que en solicitudes inmediatas de trabajo tenga que volver a esperar la misma cantidad de tiempo que esperó para el primer trabajo.
- Tiempo a partir del cual se considera que un nodo no está siendo utilizado. Con este parámetro podemos modelar las pautas de trabajo de una organización, ajustando el apagado de nodos a ellas. De esta forma se pueden capturar descansos del personal, tiempos entre pruebas, etc. para evitar que en ese tiempo se apaguen nodos y afecten a la usabilidad del sistema.
- Lista de nodos que no deben entrar en la política de apagado. Esta característica se puede utilizar tanto para mantener un remanente de nodos siempre encendidos como apagados (para disponer de un conjunto de nodos de reserva).
Además, la mayoría de estos parámetros son ajustables individualmente para cada subsistema que controla CLUES. De esta forma, se pueden establecer políticas individuales para cada subsistema que gestiona el cluster.
Herramientas para la gestión de los nodos
CLUES proporciona herramientas tanto de tipo CLI (Command Line Interface) como interfaz web. Esto permite que, al estar integrados en CLUES los subsistemas que gestionan el cluster, se pueden utilizar estas herramientas para hacer encendido y apagado controlado de los nodos. Así, al apagar un nodo utilizando las herramientas de gestión CLUES, se realizarán las operaciones necesarias para sacarlos de la gestión de los LRMS (o sistemas cloud) de forma ordenada, y así evitar fallos o puesta en estado de error de los nodos. De forma recíproca, al encender un nodo con las herramientas de CLUES, se realizarán las operaciones necesarias para integrar los nodos en los sistemas de gestión de recursos locales.
Previsión de sobrecarga
El encendido de muchos nodos de un mismo sistema de forma simultánea puede causar una sobredemanda en el consumo eléctrico. Esto se ve agravado por los picos adicionales que consumen las fuentes de alimentación en el momento de arranque. CLUES trata de amortiguar estos picos de demanda de energía, realizando un encendido de nodos contenido. De esta forma se limita la incidencia del encendido y apagado de los nodos en el sistema eléctrico general.
Herramientas de informes
CLUES incorpora herramientas para la generación de informes de funcionamiento del cluster. Estas herramientas, permiten generar un reporte de la utilización del cluster (trabajos solicitados, nodos encendidos, valores medios, tiempos de espera, etc.), que pueden ser exportados a formatos compatibles con herramientas como MS ExcelTM o similares.
Estos reportes sirven como apoyo fundamental a las tareas de gestión de la energía, y permiten identificar qué nodos han sido más utilizados y cuales de ellos han pasado más tiempo en estado de reposo con el fin de cambiar la dedicación o incorporar equipamiento especializado. Al mismo tiempo se puede identificar qué subsistemas han estado más activos, su incidencia sobre la infraestructura, etc.
Toda esta información pretende servir de apoyo a la toma de decisiones con respecto a la administración del equipamiento a nivel de subsistema de control (gestor de colas, infraestructura cloud, etc.). Pero esta información también debe servir de apoyo para la toma de decisiones en cuanto a la adquisición de nuevo equipamiento ya que utilizándola podremos tener una visión de conjunto de utilización de la infraestructura.
Contacto: +34963877023, Fax: +34963877274
nota legal