UGENE — свободное биоинформационное программное обеспечение.[1]
UGENE | |||
---|---|---|---|
Тип | Биоинформационная программа | ||
Разработчик | Унипро | ||
Написана на | C++, Qt | ||
Операционная система | Кроссплатформенное программное обеспечение | ||
Языки интерфейса | русский, английский | ||
Последняя версия | 50 (14 апреля 2024 года) | ||
| |||
Лицензия | GPL | ||
Сайт | ugene.net |
UGENE может работать на персональном компьютере с Windows, Mac OS X или Linux.
UGENE предоставляет графический интерфейс для работы с последовательностями, аннотациями, множественными выравниваниями, филогенетическими деревьями, данными секвенирования (NGS) и т.д. Данные могут храниться как локально (на персональном компьютере), так и в общем хранилище (в базе данных лаборатории).
В состав UGENE включены десятки популярных биоинформационных алгоритмов и инструментов, а также собственные разработки для работы с этими данными в контексте геномики, эволюционной биологии, вирусологии и других дисциплин. Для всех инструментов также предоставляется графический интерфейс, что облегчает анализ этих данных биологами без опыта программирования.
UGENE предоставляет возможность потокового анализа большого количества данных с помощью “Дизайнера вычислительных схем”. Вычислительная схема при этом составляется из различных блоков: считывания данных, применения встроенных алгоритмов/инструментов, записи данных. При необходимости, в схему могут быть добавлены блоки произвольных инструментов командной строки, скриптовые блоки и т. п. В дизайнере имеются уже готовые примеры схем (для аннотирования последовательностей, конвертирования форматов, анализа данных секвенирования и другие).
Помимо графического интерфейса UGENE предоставляет интерфейс командной строки. В частности, составленная в дизайнере вычислительная схема также может быть запущена из командной строки.
Чтобы обеспечить максимальное быстродействие вычислений, UGENE использует возможности многоядерных ЦПУ и графических процессоров для оптимизации некоторых вычислительных задач.
Основные возможности
правитьНиже представлены основные возможности продукта:
- Создание, редактирование и аннотирование нуклеотидных и белковых последовательностей.
- Быстрый поиск в последовательности
- Множественное выравнивание последовательностей: ClustalW, ClustalO, MUSCLE, Kalign, MAFFT, T-Coffee
- Создание и редактирование биоинформационной базы данных с общим доступом
- Поиск в онлайн базах данных: NCBI, PDB, UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, серверы DAS
- Онлайн и локальный BLAST поиск
- Поиск открытых рамок считывания
- Рестрикционный анализ со встроенной базой данных ферментов рестрикции REBASE
- Интегрированный пакет Primer3 для дизайна ПЦР праймеров
- Аннотирование плазмид
- Клонирование in silico
- Выравнивание на геном с помощью Bowtie, BWA или UGENE Genome Aligner
- Визуализация выравненных коротких прочтений с помощью UGENE Assembly Browser
- Поиск геномных вариаций с помощью SAMtools
- Обработка сырых данных NGS
- Анализ RNA-Seq данных с помощью TopHat и инструментов Cufflinks
- Анализ ChIP-Seq данных с помощью MACS, CEAS и других инструментов
- Поиск гомологов с HMMER2 и HMMER3
- Работа с хроматограммами
- Поиск сайтов связывания транскрипционных факторов с использованием весовых матриц или алгоритма SITECON
- Поиск повторов в последовательности ДНК: прямых, обратных, тандемных
- Локальное выравнивание последовательности с использованием оптимизированной версии алгоритма Смита-Ватермана
- Построение филогенетических деревьев (с помощью PHYLIP Neighbor Joining, MrBayes или PhyML Maximum Likelyhood) и редактирование деревьев
- Комбинирование различных алгоритмов в вычислительную схему с помощью Дизайнера вычислительных схем
- Сборки контигов (CAP3)
- Отображение 3D структуры белков для форматов PDB и MMDB formats, поддержка стереоэффекта
- Предсказание вторичной структуры белка с помощью алгоритмов GOR IV и PSIPRED
- Конструирование точечных графиков для ДНК последовательностей
- Выравнивание мРНК (Spidey)
- Поиск комплексных сигналов с ExpertDiscovery[2]
- Поиск шаблона результатов различных алгоритмов в нуклеотидной последовательности с помощью дизайнера запросов
- ПЦР in silico
- Spades de novo ассемблер
Редактор последовательностей
правитьРедактор последовательностей (“Sequence View”) позволяет отображать, анализировать и редактировать нуклеотидные или аминокислотные последовательности. Также, для различных типов данных, в окне редактора последовательностей поддерживаются дополнительные возможности визуализации:
- Отображение 3D структуры белка
- Отображение кольцевых ДНК
- Хроматограммы
- Графики (GC-контент, AG-контент и другие)
- Отображение точечных графиков для ДНК последовательностей (dotplot)
Редактор множественных выравниваний
правитьРедактор множественных выравниваний (“Alignment Editor”) позволяет работать с несколькими нуклеотидными или аминокислотными - выравнивать их, редактировать вручную, анализировать, сохранять консенсус, строить филогенетические деревья и др.
Редактор филогенетических деревьев
правитьРедактор филогенетических деревьев (“Phylogenetic Tree Viewer”) позволяет отображать и редактировать филогенетические деревья. Имеется возможность синхронизации дерева и множественного выравнивания, по которому оно построено.
Дизайнер вычислительных схем UGENE
правитьДизайнер вычислительных схем позволяет составлять и запускать многошаговые вычислительные схемы. Отличительное качество дизайнера вычислительных схем UGENE заключается в том, что схемы исполняются на локальном компьютере пользователя, что снимает накладные расходы по загрузке данных на сервер.
Каждая схема состоит из вычислительных элементов. Дизайнер содержит элементы для большинства алгоритмов, интегрированных в UGENE. Также имеется возможность создавать собственные элементы, например на основе произвольной программы, запускаемой из командной строки. Вычислительную схему можно сохранить для последующего многократного использования или для передачи другому пользователю.
Созданную вычислительную схему можно запускать используя графический пользовательский интерфейс или интерфейс командной строки. Графический интерфейс предоставляет функции по контролю исполнения схемы: отображение результатов, сохранение параметров, отображение ошибок и пр.
Встроенная библиотека содержит готовые схемы для конвертации, фильтрации и аннотирования данных. В сотрудничестве с NIH NIAID, были разработаны схемы для анализа NGS данных (поиск мутаций, ChIP-seq, RNA-seq).
Assembly Browser
правитьСоздание Assembly Browser началось в 2010 году в качестве проекта-участника конкурса Illumina iDEA Challenge 2011. Assembly Browser позволяет визуализировать и изучать большие (до сотен миллионов коротких прочтений) данные полногеномного секвенирования. Поддерживаются форматы: ACE, SAM и его бинарная версия BAM. Для просмотра данных в UGENE входной файл должен быть сконвертирован в собственный формат UGENE. Такой подход обладает как преимуществами, так и недостатками. Недостатками являются время конвертирования, которое может быть значительным для больших файлов, а также размер баз данных. С другой стороны, конвертирование позволяет удобно обозревать всю сборку целиком, перемещаться по сборке и быстро переходить к плотно покрытым регионам.
Поддерживаемые форматы биологических данных
править- Последовательности и аннотации: FASTA (.fa), GenBank (.gb), EMBL (.emb), GFF (.gff), GTF (.gtf), BED (.bed), PDW (.pdw)
- Множественные выравнивания: Clustal (.aln), MSF (.msf), Stockholm (.sto), Nexus (.nex), PHYLIP (.phy)
- 3D структуры белка: PDB (.pdb), MMDB (.prt)
- Хроматограммы: ABIF (.abi), SCF (.scf)
- Короткие последовательности: Sequence Alignment/Map (SAM) (.sam), бинарная версия SAM (BAM) (.bam), ACE (.ace), FASTQ (.fastq)
- Филогенетические деревья: Newick (.nwk), NEXUS (.nex)
- Некоторые другие форматы: Bairoch (информация о ферментах), HMM (HMMER профили), PWM и PFM (весовые матрицы), SNP и VCF4 (геномные вариации)
Цикл выпуска
правитьРазработка проекта ведется компанией «Унипро» с головным офисом в Академгородке Новосибирска. Каждая итерация длится приблизительно от 1 до 2 месяцев, после чего выпускается очередная версия. Пользователям также доступны промежуточные сборки.
Возможности, которые будут включены в следующие версии во многом определяются запросами со стороны пользователей.
Награды
правитьВ 2010 году UGENE[3] был признан «Лучшим свободным проектом России — 2010» в категории «Групповой проект» в конкурсе журнала Linux Format.
Также, в 2010 году UGENE занял третье место во «Всероссийском ежегодном конкурсе проектов в сфере высокопроизводительных вычислений (High Performance Computing)», поддерживаемом корпорациями Роснано и Intel.
В 2008 году проекту оптимизации алгоритма HMMER в UGENE было присуждено первое место на «Конкурсе по разработке программного обеспечения для процессора PowerXCell 8i» (недоступная ссылка), проводимого компанией «Т-Платформы».
Литература
править- ↑ Okonechnikov, K.; Golosova, O.; Fursov, M.; the UGENE team. Unipro UGENE: a unified bioinformatics toolkit (неопр.) // Bioinformatics. — 2012. — doi:10.1093/bioinformatics/bts091.
- ↑ Vaskin, Y.; Khomicheva, I.; Ignatieva, E.; Vityaev, E.;. ExpertDiscovery and UGENE integrated system for intelligent analysis of regulatory regions of genes (англ.) // In Silico Biology : journal. — 2012. — doi:10.3233/ISB-2012-0448. Архивировано 8 августа 2014 года.
- ↑ Васькин, Ю.; Данилова, Ю.;. Свободный дух биоинформатики (неопр.) // Наука из первых рук. — 2013. Архивировано 8 августа 2014 года.