Напечатать документ Послать нам письмо Сохранить документ Форумы сайта
АКАДЕМИЯ ТРИНИТАРИЗМА На главную страницу
«Конкурс Русских Инноваций» — 2003
«Портал для поддержки исследований по биоинформационным технологиям»

Биотехнологии объявлены Европейским Советом ключевыми технологиями на период первого десятилетия XXI века (www.cordis.lu/rtd2002). Исследователям, работающим в области биоинформационных технологий, как можно быстрее нужны решения, которые позволят им извлечь максимальную пользу из информации, ресурсов и приложений. Для этого необходимо, чтобы для этих исследователей стало возможным:
  • Упростить и ускорить поиск информации.
  • Облегчить и ускорить процесс разработки и/или использования необходимых программно-аппаратных ресурсов.
  • Ускорить решение задач.
Предложенный на «Конкурс Русских Инноваций» фирмой «Суперкомпьютерные системы» (www.minitera.ru) совместно Исследовательским центром искусственного интеллекта (ИПС РАН) и кафедрой вычислительной техники Вятского технического Университета проект портала1 для поддержки исследований по биоинформационным технологиям (руководитель проекта — д.ф.-м.н., профессор, Осипов Геннадий Семенович) должен обеспечить доступ ко всей информации и приложениям, связав в единый комплекс информационные, программные и аппаратные ресурсы, включающие в свой состав (рис.1):
  • Метапоисковую систему2 для постоянного сканирования WEB-пространства с целью поиска информации по биотехнологиям в плане их компьютерной поддержки (аппаратные решения, алгоритмы, базы данных, программные комплексы);
  • Системную базу данных, содержащую информацию (ссылки), алгоритмы и программы основных приложений, используемых в биоинформатике;
  • Систему управления виртуальной распределенной базой данных, хранящейся на удаленных компьютерах отдельных исследовательских центров;
  • Вычислительный кластер с аппаратным ускорением основных алгоритмов биоинформатики;
  • Сервер обработки пользовательских запросов (сервер портала);
  • Рабочее место пользователя, обеспечивающее подготовку, отладку и запуск задач биоинформатики, а также анализ результатов. Кроме того, пользователю должна быть предоставлена возможность разработки и включения в системную базу новых алгоритмов.

рис. 1 Общая схема портала.

Ключевыми элементами портала являются метапоисковая система и вычислительный кластер с аппаратным ускорением основных алгоритмов биоинформатики. Две эти составляющие являлись предметом исследований участников проекта в течение нескольких лет.
В предлагаемом портале доступ к использованию ресурсов кластера производится через Интернет. При этом рабочим местом исследователя является Web-страница, пользуясь которой, он делает запросы, на поиск информации, пишет сценарий обработки данных, просматривает результаты.
В отличие от наиболее известных аналогов предлагаемый портал:
  1. Активно ищет и накапливает информацию, связанную с использованием компьютеров для решения биотехнологических задач.
  2. Предоставляет доступ к специальным вычислительным и программным ресурсам, причем пользователь может разрабатывать новые алгоритмы и подстраивать под них архитектуру вычислительных ресурсов.
Реализация проекта позволит ускорить ведение работ в области биотехнологии, в частности таких, как генетические исследования, синтез новых лекарств.
Актуальность проекта обусловлена тем, что объем информации, накопленной при расшифровке геномов различных организмов, значительно превышает возможности ее анализа. Это связано с тем, что в процессе определения структуры (секвенсирования) генома отдельная лаборатория получает несколько Гбайт информации в день! Поэтому развитие программных и аппаратных средств для поиска и компьютерного анализа этой информации приобретает исключительное значение3.
В настоящее время наиболее известными прототипами предлагаемого проекта являются:
  • Портал Национального центра биологических исследований (NCBI) — http://www.ncbi.nlm.nih.gov/About/index.html;
  • сайт российской фирмы Интерруссофт — http://www.rusbiotech.ru (как пример российских разработок).
Портал NCBI является самым крупным в мире хранилищем данных по геномике и протеомике и предоставляет наибольшее число всевозможных сервисов в области биоинформатики. Однако стоит отметить, что поиск информации осуществляется только в базах данных, непосредственно связанных с порталом. Для удаленных пользователей отсутствует возможность использования для исследований алгоритмов, разработанных непосредственно ими и невозможно в процессе работы подключить и свои базы данных. Для решения задач используются вычислительные кластеры, собранные из серверов общего назначения, что значительно снижает эффективность их использования и увеличивает стоимость разработки.
Сайт российской фирмы Интерруссофт представляет наиболее крупный информационный российский ресурс по биоинформатике. Однако, в отличие от портала NCBI, он играет лишь роль справочно-информационной системы, и на нем не предоставляется сервисов, связанных с непосредственным решением задач4.

Функции портала

Одной из главных задач биоинформатики является предсказание функции белка на основании знания его первичной (аминокислотной) структуры и предсказанной трехмерной структуры. Задача разбивается на следующие этапы:
  1. Определение нуклеотидных последовательностей ДНК и РНК, а также аминокислотных последовательностей белков.
  2. Сопоставление у разных видов организмов нуклеотидных последовательностей отдельных участков ДНК и аминокислотных последовательностей функционально похожих белков с целью определения общих структурных фрагментов и их функционального назначения.
  3. Определение трехмерной структуры белка по его аминокислотной последовательности на основе сравнительного анализа экспериментальной информации о трехмерной структуре расшифрованных белков.
  4. Моделирование трехмерной структуры белка по его аминокислотной последовательности (задача пока не решена).
Исходя из вышеизложенного, можно сформулировать основные задачи, которые должен эффективно осуществлять аппаратно-программный комплекс портала:
  • Эффективный поиск тематической информации (в том числе регулярное отслеживание определенных источников в Internet).
  • Хранение больших объемов данных и/или обеспечение быстрого поиска и доступа к ним.
  • Быстрая вычислительная реализация алгоритмов5 геномики и протеомики (BLAST, алгоритмы Нидлмана-Вунша, Смита-Ватермана и др.).
  • Дружественный пользователю интерфейс рабочего места, обеспечивающий простоту описания решаемой задачи биоинформатики и эффективное представление ее результатов.
  • Возможность разработки и апробации новых алгоритмов.

Основные идеи

В заявленном проекте можно выделить три основных составных части, для реализации которых и предполагается приложить основные усилия в ходе создания портала:
  • Метапоисковая система;
  • Вычислительный кластер с аппаратным ускорением основных алгоритмов биоинформатики;
  • Система управления виртуальной распределенной базой данных, хранящейся на удаленных компьютерах, связанных через Internet.
Опишем кратко преимущества предложенного в проекте подхода к реализации основных составляющих частей портала.

Метапоисковая система

Основными компонентами такой системы являются:
  • База данных для хранения документов, запросов пользователя, структуры фильтров, сценариев и правил обработки документов, поиска в глобальной сети;
  • Мультиагентная система поиска и обработки информации;
  • Модули лингвистического анализа текста (выполняют морфологический, синтаксический и семантический анализ текста);
  • Интерфейс пользователя с базой данных, построенный на основе использования WEB-server и технологий INTERNET-browser.
База данных предназначена для хранения запросов пользователя и результатов их обработки, словарей, а также всей служебной информации, которая необходима для работы программ-агентов. Модули лингвистического анализа текста выполняют морфологический, синтаксический и семантический анализ текста. Распределенная обработка запросов пользователя организована в виде мультиагентской среды. При этом отдельные, функционально независимые этапы работы, реализованные модулями-агентами, могут выполняться на разных компьютерах локальной сети. Управление задачами в распределенной среде выполняет менеджер распределенных вычислений.
Система рассчитана на работу в многопользовательском режиме. Пользователь средствами пользовательского интерфейса может наблюдать текущее состояние базы данных документов, состояние среды обработки, размещать управляющие команды по обработке базы данных, поиску в глобальной сети. Интерфейс пользователя работает под управлением WEB-сервера.
Все изменения в информационной базе данных производятся агентами обработки, действующими под управлением менеджера агентов, реализующего правила обработки документов и команд пользователя.
Агенты являются независимыми друг от друга. Каждый из агентов полностью реализует узкую функцию, а для реализации разных функций используются различные агенты. Агенты непосредственно взаимодействуют с базой данных. При помощи пользовательского интерфейса возможно проводить профилирование системы по количеству одновременно активных агентов (как для общего количества агентов, так и для каждого вида в отдельности). При этом коммуникационная среда и среда исполнения агентов подразумевают:
  • Унификацию коммуникационных интерфейсов модулей;
  • Исполнение модулей под управлением операционной системы или любого интерпретатора;
  • Наличие непосредственного доступа модуля к БД;
Любой модуль, удовлетворяющий этим условиям, может быть включен в систему в качестве агента. Пользовательские сценарии поиска и обработки документов подразумевают включение или исключение агентов того или иного вида из предопределенного сценария функционирования.
Мультиагентная среда функционирует постоянно и не требует активизации пользователем. Управление работой агентов осуществляется путем создания новых сценариев обработки, либо модификацией существующих сценариев. При этом допускается возможность расстановки пользователем приоритетных по времени объектов, для которых необходимо выполнить сценарии (временной профайлинг).
Общая схема системы представлена на Рис.2.
Увеличить >>>

Рис. 2. Общая схема системы МИС

В отличие от существующих поисковых машин метапоисковая машина портала дает возможность:
  • Выполнять периодическое сканирование WEB-ресурсов (сайтов, отдельных страниц), в том числе и по расписанию, заданному пользователем.
  • Расширять исходный запрос за счет словаря синонимов и тезауруса.
  • Искать и оценивать степень релевантности найденных документов не только по набору ключевых слов, но и по смысловому содержанию, анализируя соответствие семантики запроса и документа.
  • Возможность обработки запроса на естественном языке.
Прототипом метапоисковой машины является проект «SIRIUS» (http://www.botik.ru/PSI/AIReC/AIReC.ru.html) Центра искусственного интеллекта ИПС РАН (г.Переславль-Залесский) и российско-итальянский проект HIISC (www.minitera.ru), высоко оцененный европейскими экспертами программы EUREKA.
На рис. 3 показан общий вид страницы поисковой системы «SIRIUS».
Увеличить >>>

Рис.3 Общий вид страницы поисковой системы «SIRIUS».

Вычислительный кластер с аппаратным ускорением алгоритмов биоинформатики.

С целью ускорения решения задач биоинформатики в состав портала войдет вычислительный кластер (рис. 4), разрабатываемый на основе концепции реконфигурируемых вычислительных систем. Архитектурное решение для кластера основано на том, что каждая прикладная проблема из области биоинформатики может быть разбита:
  • на фрагменты со сложной логикой вычисления, с крупнозернистым, скрытым (динамическим) параллелизмом — такие фрагменты эффективнее реализуются с использованием процессоров общего назначения;
  • на фрагменты с мелкозернистым, явным параллелизмом, требующие обработки больших потоков информации. Такие фрагменты эффективно реализуются на специализированных процессорах.
Поэтому вычислительный кластер портала будет состоять как из процессоров общего назначения, так и реконфигурируемых вычислительных модулей, объединенных коммутационной средой.
Основой кластера являются модули, каждый из которых содержит симметричный мультипроцессор (SMP) и реконфигурируемую вычислительную матрицу (CCM). SMP состоит из 2-8 процессоров типа AMD Opteron-64, а ССМ — из 10-20 тысяч простейших процессорных элементов. Процессорный элементы в ССМ и связи между ними программируются так, что на период выполнения задачи создается структура, оптимально приспособленная под алгоритм.
Вычислительные модули объединяются между собой на основе технологии HyperTransport фирмы AMD, позволяющей соединять большое количество устройств по принципу «точка»-«точка». Таким образом будет построен сравнительно дешевый, хорошо масштабируемый кластер, который позволяет наращивать производительность по мере необходимости. Прототипом вычислительного кластера с реконфигурируемой архитектурой является проект «Minitera» (www.minitera.ru), получивший хорошую оценку специалистов фирмы BULL.
Вычислительный кластер будет собран в типовых стойках. В качестве базовой операционной системы выбрана LINUX, что совместно с использованием аппаратных решений фирмы AMD позволит значительно снизить стоимость системы.
Реконфигурируемые вычислительные системы базируются на следующих основных принципах и предположениях:
  • замена принципа последовательно/временного выполнения программы на параллельно/пространственное;
  • максимально возможное использование аппаратуры для решения задачи;
  • параллельная обработка потоков данных переменной (программируемой) разрядности;
  • существование задач, требующих выполнения небольшого набора команд над значительными объемами данных.
Специализированная вычислительная структура строится на так называемых FPGA (field programmable gate array) процессорах.


Рис 4 Общая структура вычислительного кластера

На рис.5 показан общий вид экспериментальной матрицы CCM, реализованной на FPGA Xilinx. При решении задачи в матрицу вводится программа и на время решения создается вычислительная структура, эквивалентная структуре выполняемого алгоритма, что позволяет получить максимальное быстродействие. Алгоритмы, используемые в геномике и протеомике, допускают очень хорошее распараллеливание вычислительных процессов и, таким образом, эффективно могут быть реализованы на вычислительном кластере портала.
Увеличить >>>

рис.5 Общий вид реконфигурируемой матрицы экспериментального модуля с реконфигурируемой архитектурой, реализованной на FPGA Xilinx.


Система управления виртуальной распределеной базой данных.

Работа портала для поддержки биоинформационных технологий напрямую зависит от объема информации, доступной в базах данных, иэффективного доступа к ней. Предлагается обеспечить доступ ко всем открытым базам данных так, чтобы для пользователя они выглядели бы единой (виртуальной) базой данных.
Для разделенных баз данных, где разнородные серверы базы данных логически связаны через сеть Интернет, предлагается трехуровневая архитектура. Пользователь через поисковую машину будет обращаться не напрямую к какому-то из серверов баз данных, а к серверу приложений, который предварительно обрабатывает запрос пользователя с использованием сценариев, написанных на Java. Сервер приложений определяет структуру запроса, преобразует его в соответствии со структурой базы данных, куда адресован запрос и переадресует его соответствующему серверу (серверам) распределенной базы данных. Результаты выполнения запроса, а также сообщения об ошибках, посылаются обратно на станцию пользователя также через сервер приложений и поисковую машину.
В процессе реализации проекта может быть осуществлена коммерциализация его результатов. Это может быть сделано как путем предоставления платных сервисов портала6, так и доработкой побочных продуктов проекта до коммерческого уровня. В качестве таких побочных продуктов могут быть:
  1. метапоисковая систему, которая может эффективно использоваться в корпоративных сетях больших предприятий;
  2. вычислительный кластер с аппаратным ускорением основных алгоритмов биоинформатики, который может использоваться отдельными исследовательскими организациями.
  3. cредства создания и управления интернет-распределенными базами данных.

Примечания

  1. .  Портал — аппаратно-программный комплекс, предназначенный для предоставления пользователю справочно-информационных (и вычислительных в данном случае) услуг с использованием Интернета и, как правило, ориентированных на определенную тематику.
  2. .  Метапоисковая система производит поиск информации не только самостоятельно, но и с помощью других поисковых машин Интернета, что дополнительно увеличивает ее поисковые возможности.
  3. .  - http://www.rusbiotech.ru: «Биоинформатика занимается системным анализом нуклеотидных последовательностей ДНК и РНК, а также аминокислотных последовательностей белков т.е. сравнительной геномикой. Сопоставление у разных видов организмов нуклеотидных последовательностей отдельных участков ДНК и аминокислотных последовательностей функционально похожих белков позволяет выявить общие структурные фрагменты. Последующая экспериментальная проверка этих «компьютерных предсказаний» часто позволяет ответить на вопрос о функциональной важности тех или иных участков биологических макромолекул.
    Отдельным разделом биоинформатики является разработка алгоритмов и программ для предсказания пространственной структуры белков. Данная проблема является одной из ключевых в современной молекулярной биологии. До настоящего момента не создано точных методов предсказания трехмерной структуры белка по его аминокислотной последовательности. Однако, поскольку в банках данных существует экспериментально полученная информация о трехмерной структуре сотен белков, то во многих случаях можно на ее основе предсказывать пространственную структуру неизвестного белка с достаточной точностью. Следующим шагом в системных исследованиях геномов должнен стать способ предсказания функции белка на основании знания его первичной (аминокислотной) структуры и предсказанной трехмерной структуры. Таким образом, сравнительная геномика переходит в новый раздел геномики — функциональная геномика.
    Главная задача функциональной геномики — выяснение биологических функций генных продуктов (РНК и белков). Функциональная геномика стремится сначала предсказать функцию тех или иных биополимеров с помощью компьютерного анализа, и только затем переходит к экспериментальной проверке в пробирке предсказанной функции.
    Анализ последних тенденций развития геномных исследований показывает, что после установления структуры генома человека именно функциональная геномика станет ключевым направлением фундаментальных исследований в геномике».
  4. .  Осознавая грандиозность задач, стоящих в области биоинформатики, мы предполагаем возможность объединения в будущем нашего проекта и других российских ресурсов по биоинформатике, в том числе и проекта Интерруссофт.
  5. .  См. например, Dawid W.Mount «Bioinformatics. Sequence and Genom Analysis». CSHL Press, 2001.
  6. .  Стоит отметить, что Портал Национального центра биологических исследований США, наиболее известный и мощный в мире, финансируется из государственного бюджета и предоставляет, правда функционально ограниченные, но бесплатные сервисы.

«Конкурс Русских Инноваций» — 2003 «Портал для поддержки исследований по биоинформационным технологиям» // «Академия Тринитаризма», М., Эл № 77-6567, публ.10291, 26.03.2003

[Обсуждение на форуме «Наука»]

В начало документа

© Академия Тринитаризма
info@trinitas.ru