Обсуждение:Количественный анализ экспрессии генов

Эта статья была кандидатом в добротные статьи русской Википедии, но по результатам обсуждения рекомендована в хорошие (избранные) при условии доработки. См. страницу номинации (статус не присвоен 3 мая 2019 года).

Эта статья была кандидатом в добротные статьи русской Википедии, но по результатам обсуждения рекомендована в хорошие (избранные) при условии доработки. См. страницу номинации (статус не присвоен 4 мая 2019 года).

К разделу 1 Методы

Последнее сообщение: 11 лет назад1 сообщение1 человек в обсуждении

В разделе Методы странные переносы строк. Много формул, изложение не систематизировано. "Ввиду стохастического изменения количества РНК от клетки к клетке" - вероятно дело скорее в случайном характере выбора молекул РНК при секвенировании? излогается метод cufflinks, хотя начать стоило бы с более простой модели - подсчета всех ридов что пересеклись с данным геном (HTseq). Название раздела "cufflinks" (особенно без объяснения того что это одна из многих программ) - не годится. Кроме cufflinks есть еще куча вариантов. "Систематические ошибки и воспроизводимость" - неплохо бы написать про биологическую вариабельность, необходимость реплик, как технических так и биологических. Раздел про микрочипы - непонятно зачем писать как делают чипы, это статья про экспрессию а не про производство чипов. При этом как из чипов определяется уровень экспрессии (лог интенсивности, нормализация) - не написано. Неплохо бы прояснить несколько моментов: а) экспрессия гена = sum(экспресии изоформ) б) "находят применение в диагностике и исследовании различных заболевани" - нужна ссылка. Вообще раздел Применение очень беден - дифэкспрессия используется повсеместно, неплохо бы привести несколько примеров (отличия между тканями, видами, в ответе на стресс, временные ряды - с ссылками разумеется). Iaa.aka 07:25, 24 мая 2013 (UTC)Ответить

К разделу 3 Сравнение экспрессии генов - до попарного сравнения

"differential (two samples) analysis of gene expression" - зачем тут английский текст?
иджентичных
RPKM - Read Per Kilobase per Million mapped reads - необходимо перевести на русский
вариабельность бывает биологическая и техническая. Биологическую собственно и изучают, но иногда она бывает и между образцами относящимися к одной экспериментальной группе (это может происходить как из-за генетических факторов так и из-за факторов среды). Тогда ее надо учитывать (говорить что она мешает - не совсем корректно, это примерно как говорить что принцип неопределенности мешает изучать физику)
Нормализация - тут зачем-то перечислены причины технической вариабельности (хотя в тексте написано что будет и биологическая) к нормализации это не имеет отношения. Тут надо объяснить зачем нужна нормализация (в первую очередь для контроля за размером библиотеки и (в случае чипов) кол-вом РНК/длительностью экспозиции), в чем проблема линейной нормализации (чипы - нелинейная зависимость концентрация/интенсивность, РНК-сек - возможный сильный вклад в размер библиотеки маленькой группы рнк (рРНК, митохондриальная, рибосомальные белки)). Надо не забыть что можно сравнивать один и тот же ген в нескольких образцах - тогда на его длину можно не нормировать, если сравнивать два гена в одном образце - нужно нормировать. Тут надо коротко перечислить методы нормализации (квантильная, деление на суммы, деление на суммы отбросив крайние квантили, деление на медиану отношения (Huber))

к разделу 3.3 парное сравнение

Начать раздел надо с определения, что-то вроде: - сравнение двух групп образцов и поиск генов, чьи уровни экспрессии значимо отличаются между двумя группами.
"При анализе данных RNA-Seq, получаемые значения количества картируемых фрагментов натуральные, для анализа случайную величину принимают распределенной по Пуассону, как обратное биномиальное и даже бета-биномиальное." - это предложение очень труднопонимаемо.
раздел написан крайне путано. Наведите порядок в изложении. разделите методы на основанные на дискретных и непрерывных распределениях. Не забудьте что вторые можно точно также использовать для РНК-сек. В случае нормального распределения дисперсия является одним из параметров распределения, поэтому с ней нет особых проблем, в случае Пуассона - дисперсия равно среднему, что неработает из-за биологической вариабельности, поэтому используют другие распределения (негативно биномиальное). регуляризованный т-тест - фактически то же самое что методы в edgeR и deseq для определения дисперсии используя информацию обо всех генах. Объедените это в один раздел.
t-test - формулы не нужны, сделайте ссылку на соответствующую страницу.
"(Картинка???)" - действительно ???
Регуляризованный t-тест - нужно ясно написать что он позволяет использовать информацию о других генах для оценки вариабельности данного - и экономить таким образом на репликах. Неплохобы сократить число формул - особенно если
"Исходными данными методов/программ анализа дифференциально экспрессирующихся генов являются матрицы, содержащие данные о количестве фрагментов, картированных на ген/экзон для каждого образца в эксперименте RNA-Seq" - куда делись чипы?
"модели Пуассона для отсчетов," - каких еще отсчетов?
"(гены???)" - ??????
почему-то все что касается дискретных распределений идет в главе Модели.

к разделу 3.5 Множественное сравнение

множественно сравнение возхможно либо как много попарных либо как построение модели учитывающей все факторы.
Однофакторная линейная модель - почему только однофакторная? почему в перечислении при этом указаны только парные сравнения, хотя раздел вроде про множественное сравнение? как определяется значимость (ответ - анова)?
Обобщенная линейная модель - по использованию НИЧЕМ не отличается от обычной линейной, кроме того что работает с бОльшим семейством распределений. Не надо писать тут формул - дайте ссылку на соответствующую страницу.
"Данная модель позволяет быстро сравнивать несколько групп, а так же делать более сложные сравнения, например, сопоставлять значения экспрессии генов одного эксперимента и усредненных значений двух других экспериментов и т.п." - получается что GLM позволяет это делать а lm - нет. Это не верно, в плане сложности моделей lm и glm ИДЕНТИЧНЫ.
все последующие разделы касаются способов анализа lm и (при замене analysis-of-variance на analysis-of-deviance) glm. Однако понять это из текста решительно невозможно.

риды - безграмотный жаргон

Последнее сообщение: 10 лет назад1 сообщение1 человек в обсуждении

Вместо термина "рид" - лучше использовать термин "прочтение" --Sirozha.ru 13:13, 31 января 2014 (UTC)Ответить

перевод RPKM

прочтения на тысячу оснований на миллион картированных прочтений

По новым исправлениям

Что нужно еще исправить:

Добавить тему