Monday, January 08, 2007

World Wide GRID- - будущее уже рядом

ХXI век, возможно, станет эпохой массового внедрения грид-технологий. Счастливое человечество стоит на пороге очередной компьютерной революции, в результате которой произойдет трансформация привычного для нас сегодня WWW (World Wide Web — интернета) в WWG (World Wide GRID — всемирную грид-сеть).

Магическая грид-среда, способная виртуализировать процессоры, память и коммуникации, обещает превратить все компьютерные ресурсы мира в своего рода гигантский мультипроцессор, обладающий практически неограниченными вычислительными возможностями.

Информатизация сегодня выходит на четвертый этап своего развития. Первый был связан с появлением больших компьютеров (мейнфреймов), второй — с персональными компьютерами, третий — с появлением интернета, объединившего пользователей в единое информационное пространство. Первое же десятилетие XXI века, по мнению многих специалистов, знаменуется началом перехода на новые грид-технологии.

Впрочем, конкретные формы и механизмы этого «великого перехода к WWG» пока еще четко не определены. Среди апологетов грид-технологий до сих пор нет единства взглядов относительно того, будет ли WWG создан на базе уже существующих интернет-мощностей или же вообще «в чистом поле» — как универсальная система эмуляции персональных компьютеров, пользователям которой не потребуется ни полнофункционального компьютера, ни собственного программного обеспечения. Масса нерешенных вопросов остается и в области стандартизации протоколов, интеграции разнородных вычислительных ресурсов, обеспечения безопасности хранения и передачи данных.

Суперкомпьютер из розетки
Грид-компьютинг начал формироваться прежде всего как интегратор вычислительных ресурсов для решения различных «ресурсоемких» научных задач. Идея более эффективного использования вычислительных мощностей путем соединения множества компьютеров в единую структуру возникла в научном сообществе сравнительно давно — в эпоху мейнфреймов (больших ЭВМ). Уже в 80 е годы ученые (прежде всего физики-ядерщики) для решения сложных математических задач пытались комбинировать друг с другом различные рабочие станции и использовать свободные центральные процессоры для сокращения времени обработки.

В 1994 году стартовал проект создания всемирной компьютерной сети GLORIAD (аббревиатура от Global Ring Network for Advanced Application Development, Глобальная кольцевая сеть для развития прикладных исследований) — волоконно-оптического кольца в Северном полушарии, объединяющего вычислительные ресурсы различных научно-исследовательских организаций США, Канады, Европы, России, Китая и Южной Кореи (опять-таки главным образом физических центров). Россия присоединилась к этому проекту в 1996 году, и сегодня нашу страну в нем представляют Российский научный центр «Курчатовский институт» и Российский НИИ развития общественных сетей.

Тем не менее формально авторами концепции грид считаются Ян Фостер из Арагонской национальной лаборатории Чикагского университета и Карл Кессельман из Института информатики Университета Южной Калифорнии. Именно Фостер и Кессельман в 1998 году впервые предложили термин grid computing для обозначения универсальной программно-аппаратной инфраструктуры, объединяющей компьютеры и суперкомпьютеры в территориально-распределенную информационно-вычислительную систему. Согласно их ставшему уже классическим определению, «Грид (grid) — согласованная, открытая и стандартизованная среда, которая обеспечивает гибкое, безопасное, скоординированное разделение ресурсов в рамках виртуальной организации».

Термин grid computing был введен по аналогии с термином power grid (электросеть).

Пользователи компьютерных мощностей получат возможность прямого подключения к удаленной вычислительной сети (так же как к электроэнергии через бытовые розетки), не озадачиваясь вопросом, откуда именно приходят требуемые для работы вычислительные ресурсы, какие для этого используются линии передачи и т. п.

Основные ресурсные элементы грид-систем — суперкомпьютеры и суперкомпьютерные центры, а важнейшая инфраструктурная составляющая — высокоскоростные сети передачи данных.

Суперкомпьютеры, не объединенные в территориально-распределенную систему, обладают как минимум тремя существенными недостатками. Во-первых, это очень дорогостоящая техника, которая быстро морально устаревает (суперкомпьютеры из первой сотни рейтинга Top-500 уже через два-три года, как правило, оказываются в самом хвосте этого списка или вообще выпадают из него). Во-вторых, это «статичность» вычислительных мощностей суперкомпьютеров, которые практически не поддаются серьезной модернизации, зачастую она не позволяет использовать их для решения задач нового уровня сложности. И, наконец, третий «большой минус» — низкий КПД суперкомпьютеров вследствие неравномерности загрузки CPU.

В идеале от этих недостатков можно избавиться при объединении суперкомпьютеров в грид-сеть. Однако для эффективной эксплуатации грид-систем вначале необходимо прийти к консенсусу в сфере стандартизации (определение стандартов сервисов, интерфейсов, баз данных и т. д.).

Распределение вычислительных сред
Авторы идеи грид-компьютинга Фостер и Кессельман стояли и у истоков разработки первого стандарта конструирования грид-систем, свободно распространяемого программного инструмента с открытым кодом Globus Toolkit.

Для дальнейшего развития Globus Toolkit в 1999 году была создана специальная организация Global Grid Forum (GGF), в которую наряду с академическими организациями вошли многие производители компьютерных систем и программного обеспечения.

В 2002 году GGF и корпорацией IBM в рамках версии Globus Toolkit 3.0 была представлена новая системная разработка Open Grid Services Architecture (OGSA), инкорпорировавшая в грид понятия и стандарты веб-сервисов. В этой архитектуре грид-сервис определяется как специальный тип веб-сервиса, благодаря чему становится возможной работа с ресурсами грид на базе стандартных интернет-протоколов.

В настоящее время адаптацией Globus Toolkit к своим основным продуктам, использующим технологию бизнес-вычислений, активно занимаются ведущие игроки компьютерного рынка, в частности та же IBM и два кита ERP-технологий, Oracle и SAP.

В то же время помимо наиболее популярного сегодня проекта Globus параллельно разрабатываются и другие грид-стандарты — например, Legion, Condor и Unicore. Так, в 2004 году у GGF появился новый серьезный конкурент — консорциум Enterprise Grid Alliance (EGA), в который в числе прочих вошли такие «монстры», как Fujitsu Siemens Computers, Hewlett-Packard, Intel, NEC, Oracle, Sun Microsystems, EMC.

Причем если основной задачей GGF была выработка требований к грид для производителей ИТ-решений, то EGA изначально была «заточена» под удовлетворение запросов корпоративных пользователей.

В конце июня 2006 года GGF и EGA, которые успели порядком попортить друг другу нервы, официально объявили о своем слиянии и создании открытого Форума по распределенным вычислениям (Open Grid Forum, OGF). Как отметил новоиспеченный президент и исполнительный директор OGF Марк Линеш, ранее занимавший пост председателя совета директоров GGF, «этот шаг позволит консолидировать сообщество сторонников идей грид и более эффективно сотрудничать с основными участниками этого рынка в разных странах. Мы сможем выступать единым фронтом во всех вопросах, связанных с разработкой и внедрением грид и распределенных вычислительных сред».

Разумеется, это счастливое слияние еще не означает, что всеобщая стандартизация грид-технологий — теперь дело решенное. Одной из серьезнейших преград на пути победоносного распространения грид-сетей была и остается традиционная модель лицензирования ПО, согласно которой клиенты платят в зависимости от числа процессоров, на которых работает приложение. Грид фактически уничтожает эту модель, так как внутри грид-сети ни один центральный процессор не имеет устойчивой связи с определенным приложением.

До сих пор ни один поставщик ПО открыто не объявил о намерении изменить свою модель расчета цены с учетом новой специфики grid computing.

Еще один «провисающий» элемент глобальной грид-конструкции — практически полное отсутствие стандартизации коммерческого программного обеспечения грид. Дело в том, что одна из характеристик ранних приложений для grid computing (используемых в научных вычислениях) — независимость одной выполняемой задачи от результата решения другой. Например, в больших грид-приложениях для сложных математических расчетов вычисления разбиваются на независимые части, которые в любое время могут быть «сложены». Однако многие корпоративные приложения жестко зависимы: одно вычисление или процесс не может продвигаться до тех пор, пока не закончится другое.

По мнению Яна Фостера, «подходы на основе открытых стандартов (подобные Globus Toolkit) в конечном счете превратят грид в господствующее направление развития корпоративных информационных инфраструктур», но давать точные прогнозы относительно времени наступления этого «корпоративного ИТ-перелома» эксперты пока не рискуют.

Поиски внеземного разума
Намного успешнее продвигаются грид-технологии в научно-образовательной сфере, что в значительной мере объясняется активной финансовой поддержкой разнообразных грид-проектов государственными структурами.

Грид-сети сегодня используются в самых разных фундаментальных научных исследованиях и проектных работах. Эволюция протопланетного вещества, планет и Земли, геномика и протеомика, общее метеорологическое прогнозирование и прогноз различных стихийных бедствий (цунами, землетрясений, извержений вулканов), моделирование и анализ экспериментов в ядерной физике, ядерное оружие, нанотехнологии, проектирование аэрокосмических аппаратов и автомобилей т. д. — наверное, скоро проще будет назвать научную дисциплину, где суперкомпьютеры и распределенные вычисления еще не применяются.

Поэтому далее мы ограничимся лишь перечнем наиболее серьезных грид-проектов, уже осуществленных за последние несколько лет или находящихся в стадии реализации.

В 2001 году в США стартовал проект TeraGrid, финансируемый Национальным научным фондом науки (NSF), основной задачей которого стало создание распределенной инфраструктуры для проведения высокопроизводительных (терафлопных) вычислений.

В мае 2004 года Европейским союзом был создан аналог американской TeraGrid — консорциум DEISA (Distributed European Infrastructure for Supercomputing Applications),

частично финансируемый в рамках программы 6th Framework, который объединил в грид-сеть ведущие национальные суперкомпьютерные центры ЕС.

В конце марта 2004 года завершился трехлетний проект European DataGrid (EDG), в рамках которого была построена тестовая инфраструктура вычислений и обмена данными для нужд европейского научного сообщества.

На основе этих наработок был начат новый международный проект организации высокопроизводительной грид-сети Enabling Grids for E-sciencE (EGEE), который выполняется под руководством швейцарского ЦЕРНа (Европейского центра ядерных исследований, Женева) и финансируется Европейским союзом и правительствами стран-участниц. В настоящее время в проект входят 70 научных учреждений из 27 стран мира, объединенных в 12 федераций. В рамках этого проекта должен быть построен самый крупный в мире грид с суммарной вычислительной мощностью 20 000 CPU.

Ведущая роль ЦЕРНа определяется тем, что в 2007 году там планируется запуск крупнейшего в мире ускорителя элементарных частиц (LHC, большого адронного коллайдера), который будет источником огромного объема информации. Создающаяся в первую очередь под LHC новая компьютерная инфраструктура должна будет обеспечить эффективную обработку информации, ожидаемый среднегодовой объем которой оценивается в 10 петабайт (1 петабайт = ~10 15 байт). Задача EGEE, однако, далеко не ограничена ядерной физикой и состоит в том, чтобы реализовать потенциал грид и для многих других научно-технологических областей. Так, в ближайших планах руководства проекта создание отдельного биоинформационного «грид-блока».

В тесном взаимодействии с проектом EGEE развивается и магистральная европейская сеть для образования и науки — GEANT. В середине прошлого года межправительственная организация DANTE объявила о запуске научно-образовательной сети нового поколения GEANT 2, которая охватывает 3 млн пользователей из 3,5 тыс. академических учреждений, расположенных в 34 европейских государствах (в том числе и в России). Новая сеть качественно изменит обработку информации радиоастрономических комплексов, регистрирующие системы которых расположены на значительном удалении друг от друга, а также будет обслуживать часть процессов по передаче данных после запуска LHC.

Под руководством Пенсильванского университета США на базе грид-технологий создан Национальный цифровой центр маммографии с общим объемом данных (маммограмм) 5,6 петабайта, который предоставляет медикам возможность мгновенного доступа к записям миллионов пациентов.

Стоит упомянуть и о проекте SETI@home, инициированном астрономами Университета Калифорнии — Беркли. В рамках этого проекта была создана виртуальная грид-сеть, которая регулярно анализирует данные, поступающие с радиотелескопа Arecibo в Пуэрто-Рико с целью поиска внеземного разума. Посредством интернета SETI объединил вычислительную мощность более 5 млн персональных компьютеров и уже проделал вычислительную работу, эквивалентную более чем 600 тыс. лет работы ПК (правда, до сих пор никакой информации о найденных инопланетянах от координаторов проекта еще не поступило).

Китай начинает и может выиграть
Соединенные Штаты сегодня — безусловный мировой лидер по части практического строительства грид-сетей. В 2004 году Джордж Буш официально объявил о начале работы президентской стратегической GRID-программы (Strategic Grid Computing Initiative), основной целью которой является «создание единого национального пространства высокопроизводительных вычислений» (National High Performance Computing Environment).

К настоящему времени в США уже успешно функционируют четыре национальные грид-сети, находящиеся под заботливой опекой ключевых государственных ведомств: компьютерная сеть национального фонда научных исследований (NSF Comp. Grid), информационная сеть поддержки НАСА (NASA Information Power Grid), глобальная информационная сеть министерства обороны (DOD GI Grid) и сеть суперкомпьютерной инициативы министерства энергетики (DOE ASCI Grid).

Свою немалую лепту в процесс «всеобщей гридизации» вносят и частные американские компании. Весьма оригинален проект Sun Grid компании Sun Microsystems, стартовавший в прошлом году: машинное время сети центров обработки данных, содержащей суммарно около 10 тыс. процессоров, сдается компанией в аренду с оплатой из расчета 1 доллар за пользование одним процессором в час. Продажа времени Sun Grid осуществляется компанией по договору через чикагскую электронную фондовую биржу Archipelago Holdings. Через нее же покупатель может продать неиспользованные часы. Дополнительно в Sun предлагают услуги хранения данных по цене 1 доллар за гигабайт в месяц. Услуга предлагается организациям, имеющим эпизодические потребности в значительных вычислительных мощностях.

Концепция грид-компьютинга компании Oracle предполагает использование грид-сети как универсальной системы управления данными на основе базы данных Oracle 10G. Специальная функция ASM (Automatic Storage Manager) позволяет виртуализировать наборы дисков в единый виртуальный диск с возложением на Oracle функций менеджера файлов и томов. Oracle сама работает с этой группой дисков (виртуальными дисками), размещая на них свои файлы и управляя ими. Oracle разбивает все пространство этого виртуального диска на равные кусочки размером в 1 Мб и создает из кусочков виртуальные файлы БД, табличные пространства, тома и т. д.

Особняком в длинном списке грид-проектов стоит проект построения глобальной грид-системы, продвигаемый корпорацией Google. Модель Google — это превращение компьютинга в потребительскую услугу по типу электроснабжения (что во многом перекликается с идеей, реализуемой Sun Microsystems). В определенном смысле Google возвращается к архитектуре большой ЭВМ. В рамках этого проекта все компьютерные устройства (ПК, мобильный телефон, телевизор и т. п.) становятся просто терминалами, которые будут включены в серверный грид Google с услугами приложений.

Иными словами, Google сегодня пытается позиционировать себя в качестве универсальной системы доставки приложений на любое устройство в любой точке мира и тем самым стать реальной альтернативой привычного персонального компьютера. Стратегически важное конкурентное преимущество проекта Google — понижение себестоимости обработки бита информации. Для решения этой задачи Google активно продвигается в формировании корневой транспортной системы и подготовке площадей для размещения огромных серверных ферм с прямым выходом к ведущим мировым телекоммуникационным операторам. (По неподтвержденной информации, в 2005 году в условиях повышенной секретности Google провел крупномасштабную работу по установке в различных точках мирового океана 4 тыс. морских контейнеров с серверными стойками CPU.) Это позволит компании существенно сократить телекоммуникационные расходы и обеспечить контроль над доставкой большей части контента и мировым интернет-трафиком.

Комментируя операции Google, один из ведущих российских экспертов в области грид-технологий Владимир Рубанов в беседе с корреспондентом «Эксперта» отметил: «Финансовый результат от этих усилий "гугловцев" уже налицо: если еще в декабре 2004 года рыночная капитализация Google составляла 28 миллиардов долларов, то уже в декабре 2005 го она возросла до 138 миллиардов! Этот рост наглядно демонстрирует, насколько укрепилась на Западе вера в перспективы грид-технологий. Иными словами, крупный бизнес сегодня делает большую ставку на развитие этих технологий и готов вкладывать в них колоссальные финансовые ресурсы».

Большое внимание грид-технологиям в последние годы уделяет и руководство Евросоюза, серьезно озабоченного наметившимся отставанием в этой области от США. В 2005 году Еврокомиссия подготовила специальную программу стоимостью 13 млрд евро, в рамках которой грид-компьютингу отводится роль стимулятора и важнейшего ресурса для превращения Евросоюза в «самую конкурентоспособную в мире экономику знаний».

C 2000 года ведутся работы по освоению грид-технологий и в Китае. Долгое время информация о том, на какой стадии находится реализация проекта ChinaGrid, была фактически засекречена. Информационная бомба взорвалась в середине июля 2006 года, когда китайские СМИ во всеуслышание объявили о завершении работы над Китайским образовательным грид-проектом (China Educational Grid Project, CEGP).

CEGP объединил компьютерные сети нескольких десятков крупнейших университетов страны и предоставил миллионам китайских студентов прямой доступ к базам данных, онлайновым учебным курсам и сервисным приложениям по самым разным направлениям и дисциплинам.

Как полагает Владимир Рубанов, «китайцы уже создали материальную и инфраструктурную базу для рывка в образовательной сфере. Им теперь уже не нужно регулярно тратить тысячи долларов на покупку новых компьютеров взамен устаревших — достаточно приобрести всего за 150–200 долларов интернет-коммуникаторы (PIC) и получать далее все необходимые ресурсы из грид-сети. Например, подключиться к реализации Программы 50–15, активно продвигаемой сегодня американской компанией AMD (обеспечить к 2015 году доступ в интернет при помощи дешевых интернет-приставок для 50% населения Земли. — "Эксперт")».

В январе 2006 года в Афинах было официально объявлено о начале выполнения финансируемого Европейской комиссией проекта EUChinaGRID. Главная его цель — объединение европейских и китайских грид-инфраструктур для повышения эффективности совместного использования различных научных приложений, работающих в грид-среде. Наметившийся стратегический альянс ЕС и Китая вполне можно рассматривать как одну из первых попыток создания сильного «грид-противовеса» претензиям США на мировое лидерство в этой крупномасштабной технологической гонке.

В скором времени к этому альянсу может подключиться и Индия, которая также объявила о начале реализации собственной Национальной грид-компьютинговой инициативы GARUDA, предусматривающей объединение в грид-сеть 17 крупнейших научно-исследовательских центров страны.

Зеленый свет для русского грид
К настоящему времени национальные программы по развитию грид-технологий в той или иной форме реализуются практически всеми технологически развитыми странами. В России такой программы по грид до сих пор нет.

Вплоть до середины этого года все, чем могла похвастаться в сфере государственной поддержки развития грид-технологий Россия, по сути ограничивалось двумя ведомственными программами — Минатома и Российской академии наук, принятыми еще в 2003 году.

В июне 2006 года правительство России наконец одобрило предложение Министерства образования и науки о разработке проекта новой суперкомпьютерной программы «СКИФ-ГРИД» Союзного государства России и Белоруссии. Распоряжением Михаила Фрадкова от 7 июня Минобрнауки было поручено внести предложение о разработке проекта программы «Разработка и использование программно-аппаратных средств ГРИД-технологий и перспективных суперкомпьютерных вычислительных систем семейства СКИФ» в совет министров Союзного государства.

Благодаря этому решению головные разработчики суперкомпьютеров семейства СКИФ — Институт программных систем Российской академии наук (ИПС РАН) в Переславле-Залесском и Объединенный институт проблем информатики Национальной академии наук Белоруссии (ОИПИ НАН Белоруссии) — наконец получили добро на проведение дальнейших исследований.

Однако даже этот проект, предусматривающий в течение ближайших нескольких лет создание старших моделей персональных кластеров-серверов, имеет лишь косвенное отношение к грид-технологиям. Персональные кластеры-серверы — объединения вычислительных мощностей компьютеров и суперкомпьютеров внутри высокоскоростной локальной сети, — несмотря на целый ряд безусловных преимуществ по сравнению с «обычными» суперкомпьютерами, гомогенны (состоят из систем, имеющих одинаковую базовую структуру). В этом заключается их принципиальное отличие от компьютерных грид-сетей, которые позволяют объединять в единую вычислительную цепь гетерогенные вычислительные ресурсы, формально не связанные общим ПО и не требующие централизованного администрирования.

Мощности глобальной новой грид-системы будут такими, что — по крайней мере в теории — у ее координаторов появится возможность отслеживать и анализировать любой «клик мышкой» на каждом отдельно взятом компьютере, подключенном к грид-сети. А это — прямая дорога к перехвату интеллектуальной собственности, к быстрой утечке идей и т. п.

По мнению г-на Рубанова, единственным разумным ответом на вызов такой глобальной грид-инфраструктуры должно стать «построение национальной грид-сети, которую мы сделаем целостной и управляемой, взаимодействующей по определенным правилам с глобальной, — иными словами, между национальной и глобальной грид-инфраструктурой должна быть создана контролируемая зона обмена информацией».

Для создания такой национальной грид-системы необходимо наличие трех важнейших компонентов: программных продуктов, вычислительных мощностей и коммуникаций. Причем самым критическим элементом этой новой инфраструктуры сегодня являются именно коммуникации.

Все реализуемые сегодня концепции и подходы к построению глобальной грид-системы (грид как вычислительная услуга — Sun Microsystems; грид как система эмуляции персонального компьютера и его замены интернет-коммуникатором — AMD; грид как единая операционная система, объединяющая вычислительные мощности в глобальный суперкомпьютер, — Google; грид как виртуальная организация, формирующая однородное пространство ИКТ-взаимодействия, — Oracle) требуют высокоскоростных сетей.

Создание выделенной высокоскоростной сети передачи данных для грид-систем — это ключевой элемент снижения себестоимости обработки бита информации и главное преимущество в ценовой конкуренции глобальных проектов. И именно участие в создании коммуникационной инфраструктуры для глобального грид-компьютинга — возможно, последний шанс для достойного включения России в преобразование мирового инфокоммуникационного пространства.



--- по материалам Эксперт`а ---