Tecnologías Grid

Desde su creación, el desarrollo y los avances de Internet han estado ligados a la progresiva implantación de nuevos servicios que han facilitado el acceso y la transmisión de información entre computadores remotos.

Las tecnologías Grid permiten compartir hasta centenares de miles de ordenadores para que compartan no sólo capacidad de cómputo, sino también información almacenada en grandes espacios de almacenamiento distribuidos, con el objetivo de resolver retos que trascienden la capacidad individual de los centros individuales. El Grid se concibe con la perspectiva de crear sobre una red Internet de nueva generación, un conjunto de protocolos abiertos y de propósito general y de servicios adicionales que funcionen sobre la red, permitiendo el acceso controlado y flexible a los recursos compartidos y en función de los permisos de la organización virtual a la que pertenezca el usuario que haya lanzado la tarea. Las tecnologías Grid resultan apropiadas en las disciplinas científicas que generan grandes colecciones de datos experimentales (pongamos como ejemplo la predicción metereológica, la física de altas energías o la gestión de datos médicos entre centros hospitalarios) y necesitan de su procesamiento.

Unir distintas fuentes de información ha sido siempre un problema complicado debido a la heterogeneidad que aparece al juntar distintos recursos, ya que los sistemas empleados pueden no ser compatibles. En este marco, el GRID permite a las distintas instituciones crear organizaciones virtuales en las que compartir sus recursos, facilitando a los usuarios el acceso a distintas infraestructuras heterogéneas para lanzar los trabajos.

En los últimos años, Europa ha liderado el desarrollo y puesta en marcha de una infraestructura internacional de computación Grid en calidad de producción, sostenible y de propósito general. Durante las tres fases del proyecto EGEE (Enabling Grids for e-Science), se consolidó una infraestructura que engloba en la actualidad 338 centros de 51 países, compartiendo un total de 239.000 cores y 102 PBytes de almacenamiento en línea. Esta infraestructura está soportada por las Iniciativas Nacionales de Grid (NGIs) que se coordinan a través de la fundación internacional EGI.eu. La iniciativa de grid Nacional española (ES-NGI) coordina 21 centros nacionales, en los que los usuarios han consumido 35 Millones horas de proceso normalizadas (SpecInt2006) al año a través de sus 12.700 Cores.

El uso de las tecnologías Grid en el ámbito de la bioinformática y biomedicina es especialmente destacado. En EGI, esta comunidad es, detrás de las relacionadas con los experimentos del LHC, la de mayor consumo de recursos (13 millones de horas de CPU normalizadas), siendo España el segundo país en cuanto a la contribución de recursos (figura 2). La Life Science Grid Community integra a más de 300 investigadores de todo el mundo y está autorizada para acceder a más de 140.000 CPUs en dicha infraestructura. Sin embargo, las infraestructuras Grid implican una serie de limitaciones que dificulta su aplicación en producción. El tiempo de respuesta de las infraestructuras tiene un alto grado de indeterminación, además de implicar unas sobrecargas adicionales en el orden de decenas de minutos. Las infraestructuras Grid son adecuadas para problemas poco acoplados y de gran coste computacional, en los que los tiempos de colas y la sobrecarga del middleware Grid no suponen un aumento significativo. Más aún, los sistemas Grid implican todavía una tasa de fallos excesiva para su uso por usuarios sin experiencia en la tecnología.

El acceso a las infraestructuras Grid normalmente se estructura a partir de un comité de acceso que valora las solicitudes, generalmente avaladas por agencias de evaluación como la ANEP en el caso español. Es por tanto necesario, asociar el acceso a los recursos a un proyecto concreto de investigación. El acceso es personalizado y no se asocian credenciales de acceso genéricas. El uso en producción, no está claramente definido en las políticas de uso.