UGENE

UGENE
UGENE
Тип	Биоинформационная программа
Разработчик	Унипро
Написана на	C++, Qt
Операционная система	Кроссплатформенное программное обеспечение
Языки интерфейса	русский, английский
Последняя версия	50 (14 апреля 2024 года)
Читаемые форматы файлов:
Читаемые форматы файлов:
	Protein Data Bank[вд]
Лицензия	GPL
Сайт	ugene.net

UGENE — свободное биоинформационное программное обеспечение.^[1]

UGENE может работать на персональном компьютере с Windows, Mac OS X или Linux.

UGENE предоставляет графический интерфейс для работы с последовательностями, аннотациями, множественными выравниваниями, филогенетическими деревьями, данными секвенирования (NGS) и т.д. Данные могут храниться как локально (на персональном компьютере), так и в общем хранилище (в базе данных лаборатории).

В состав UGENE включены десятки популярных биоинформационных алгоритмов и инструментов, а также собственные разработки для работы с этими данными в контексте геномики, эволюционной биологии, вирусологии и других дисциплин. Для всех инструментов также предоставляется графический интерфейс, что облегчает анализ этих данных биологами без опыта программирования.

UGENE предоставляет возможность потокового анализа большого количества данных с помощью “Дизайнера вычислительных схем”. Вычислительная схема при этом составляется из различных блоков: считывания данных, применения встроенных алгоритмов/инструментов, записи данных. При необходимости, в схему могут быть добавлены блоки произвольных инструментов командной строки, скриптовые блоки и т. п. В дизайнере имеются уже готовые примеры схем (для аннотирования последовательностей, конвертирования форматов, анализа данных секвенирования и другие).

Помимо графического интерфейса UGENE предоставляет интерфейс командной строки. В частности, составленная в дизайнере вычислительная схема также может быть запущена из командной строки.

Чтобы обеспечить максимальное быстродействие вычислений, UGENE использует возможности многоядерных ЦПУ и графических процессоров для оптимизации некоторых вычислительных задач.

Основные возможности

Ниже представлены основные возможности продукта:

Создание, редактирование и аннотирование нуклеотидных и белковых последовательностей.
Быстрый поиск в последовательности
Множественное выравнивание последовательностей: ClustalW, ClustalO, MUSCLE, Kalign, MAFFT, T-Coffee
Создание и редактирование биоинформационной базы данных с общим доступом
Поиск в онлайн базах данных: NCBI, PDB, UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, серверы DAS
Онлайн и локальный BLAST поиск
Поиск открытых рамок считывания
Рестрикционный анализ со встроенной базой данных ферментов рестрикции REBASE
Интегрированный пакет Primer3 для дизайна ПЦР праймеров
Аннотирование плазмид
Клонирование in silico
Выравнивание на геном с помощью Bowtie, BWA или UGENE Genome Aligner
Визуализация выравненных коротких прочтений с помощью UGENE Assembly Browser
Поиск геномных вариаций с помощью SAMtools
Обработка сырых данных NGS
Анализ RNA-Seq данных с помощью TopHat и инструментов Cufflinks
Анализ ChIP-Seq данных с помощью MACS, CEAS и других инструментов
Поиск гомологов с HMMER2 и HMMER3
Работа с хроматограммами
Поиск сайтов связывания транскрипционных факторов с использованием весовых матриц или алгоритма SITECON
Поиск повторов в последовательности ДНК: прямых, обратных, тандемных
Локальное выравнивание последовательности с использованием оптимизированной версии алгоритма Смита-Ватермана
Построение филогенетических деревьев (с помощью PHYLIP Neighbor Joining, MrBayes или PhyML Maximum Likelyhood) и редактирование деревьев
Комбинирование различных алгоритмов в вычислительную схему с помощью Дизайнера вычислительных схем
Сборки контигов (CAP3)
Отображение 3D структуры белков для форматов PDB и MMDB formats, поддержка стереоэффекта
Предсказание вторичной структуры белка с помощью алгоритмов GOR IV и PSIPRED
Конструирование точечных графиков для ДНК последовательностей
Выравнивание мРНК (Spidey)
Поиск комплексных сигналов с ExpertDiscovery^[2]
Поиск шаблона результатов различных алгоритмов в нуклеотидной последовательности с помощью дизайнера запросов
ПЦР in silico
Spades de novo ассемблер

Редактор последовательностей

Редактор множественных выравниваний

Редактор последовательностей (“Sequence View”) позволяет отображать, анализировать и редактировать нуклеотидные или аминокислотные последовательности. Также, для различных типов данных, в окне редактора последовательностей поддерживаются дополнительные возможности визуализации:

Отображение 3D структуры белка
Отображение кольцевых ДНК
Хроматограммы
Графики (GC-контент, AG-контент и другие)
Отображение точечных графиков для ДНК последовательностей (dotplot)

Редактор множественных выравниваний

Редактор множественных выравниваний (“Alignment Editor”) позволяет работать с несколькими нуклеотидными или аминокислотными - выравнивать их, редактировать вручную, анализировать, сохранять консенсус, строить филогенетические деревья и др.

Редактор филогенетических деревьев

Редактор филогенетических деревьев (“Phylogenetic Tree Viewer”) позволяет отображать и редактировать филогенетические деревья. Имеется возможность синхронизации дерева и множественного выравнивания, по которому оно построено.

Дизайнер вычислительных схем UGENE

Дизайнер вычислительных схем

Дизайнер вычислительных схем позволяет составлять и запускать многошаговые вычислительные схемы. Отличительное качество дизайнера вычислительных схем UGENE заключается в том, что схемы исполняются на локальном компьютере пользователя, что снимает накладные расходы по загрузке данных на сервер.

Каждая схема состоит из вычислительных элементов. Дизайнер содержит элементы для большинства алгоритмов, интегрированных в UGENE. Также имеется возможность создавать собственные элементы, например на основе произвольной программы, запускаемой из командной строки. Вычислительную схему можно сохранить для последующего многократного использования или для передачи другому пользователю.

Созданную вычислительную схему можно запускать используя графический пользовательский интерфейс или интерфейс командной строки. Графический интерфейс предоставляет функции по контролю исполнения схемы: отображение результатов, сохранение параметров, отображение ошибок и пр.

Встроенная библиотека содержит готовые схемы для конвертации, фильтрации и аннотирования данных. В сотрудничестве с NIH NIAID, были разработаны схемы для анализа NGS данных (поиск мутаций, ChIP-seq, RNA-seq).

Assembly Browser

Обозреватель сборок

Создание Assembly Browser началось в 2010 году в качестве проекта-участника конкурса Illumina iDEA Challenge 2011. Assembly Browser позволяет визуализировать и изучать большие (до сотен миллионов коротких прочтений) данные полногеномного секвенирования. Поддерживаются форматы: ACE, SAM и его бинарная версия BAM. Для просмотра данных в UGENE входной файл должен быть сконвертирован в собственный формат UGENE. Такой подход обладает как преимуществами, так и недостатками. Недостатками являются время конвертирования, которое может быть значительным для больших файлов, а также размер баз данных. С другой стороны, конвертирование позволяет удобно обозревать всю сборку целиком, перемещаться по сборке и быстро переходить к плотно покрытым регионам.

Поддерживаемые форматы биологических данных

Последовательности и аннотации: FASTA (.fa), GenBank (.gb), EMBL (.emb), GFF (.gff), GTF (.gtf), BED (.bed), PDW (.pdw)
Множественные выравнивания: Clustal (.aln), MSF (.msf), Stockholm (.sto), Nexus (.nex), PHYLIP (.phy)
3D структуры белка: PDB (.pdb), MMDB (.prt)
Хроматограммы: ABIF (.abi), SCF (.scf)
Короткие последовательности: Sequence Alignment/Map (SAM) (.sam), бинарная версия SAM (BAM) (.bam), ACE (.ace), FASTQ (.fastq)
Филогенетические деревья: Newick (.nwk), NEXUS (.nex)
Некоторые другие форматы: Bairoch (информация о ферментах), HMM (HMMER профили), PWM и PFM (весовые матрицы), SNP и VCF4 (геномные вариации)

Цикл выпуска

Разработка проекта ведется компанией «Унипро» с головным офисом в Академгородке Новосибирска. Каждая итерация длится приблизительно от 1 до 2 месяцев, после чего выпускается очередная версия. Пользователям также доступны промежуточные сборки.

Возможности, которые будут включены в следующие версии во многом определяются запросами со стороны пользователей.

Награды

В 2010 году UGENE^[3] был признан «Лучшим свободным проектом России — 2010» в категории «Групповой проект» в конкурсе журнала Linux Format.

Также, в 2010 году UGENE занял третье место во «Всероссийском ежегодном конкурсе проектов в сфере высокопроизводительных вычислений (High Performance Computing)», поддерживаемом корпорациями Роснано и Intel.

В 2008 году проекту оптимизации алгоритма HMMER в UGENE было присуждено первое место на «Конкурсе по разработке программного обеспечения для процессора PowerXCell 8i» (недоступная ссылка), проводимого компанией «Т-Платформы».

Литература

↑ Okonechnikov, K.; Golosova, O.; Fursov, M.; the UGENE team. Unipro UGENE: a unified bioinformatics toolkit (неопр.) // Bioinformatics. — 2012. — doi:10.1093/bioinformatics/bts091.
↑ Vaskin, Y.; Khomicheva, I.; Ignatieva, E.; Vityaev, E.;. ExpertDiscovery and UGENE integrated system for intelligent analysis of regulatory regions of genes (англ.) // In Silico Biology : journal. — 2012. — doi:10.3233/ISB-2012-0448. Архивировано 8 августа 2014 года.
↑ Васькин, Ю.; Данилова, Ю.;. Свободный дух биоинформатики (неопр.) // Наука из первых рук. — 2013. Архивировано 8 августа 2014 года.

Аналогичное программное обеспечение

Ссылки

[OkonechGolFursov2012-1] Okonechnikov, K.; Golosova, O.; Fursov, M.; the UGENE team. Unipro UGENE: a unified bioinformatics toolkit (неопр.) // Bioinformatics. — 2012. — doi:10.1093/bioinformatics/bts091.

[VaskinVityaev-2] Vaskin, Y.; Khomicheva, I.; Ignatieva, E.; Vityaev, E.;. ExpertDiscovery and UGENE integrated system for intelligent analysis of regulatory regions of genes (англ.) // In Silico Biology : journal. — 2012. — doi:10.3233/ISB-2012-0448. Архивировано 8 августа 2014 года.

[VaskinDanilova-3] Васькин, Ю.; Данилова, Ю.;. Свободный дух биоинформатики (неопр.) // Наука из первых рук. — 2013. Архивировано 8 августа 2014 года.

[1]

[2]

[3]