Обсуждение:Количественный анализ экспрессии генов
Эта статья была кандидатом в добротные статьи русской Википедии, но по результатам обсуждения рекомендована в хорошие (избранные) при условии доработки. См. страницу номинации (статус не присвоен 3 мая 2019 года). |
Эта статья была кандидатом в добротные статьи русской Википедии, но по результатам обсуждения рекомендована в хорошие (избранные) при условии доработки. См. страницу номинации (статус не присвоен 4 мая 2019 года). |
К разделу 1 Методы
правитьВ разделе Методы странные переносы строк. Много формул, изложение не систематизировано. "Ввиду стохастического изменения количества РНК от клетки к клетке" - вероятно дело скорее в случайном характере выбора молекул РНК при секвенировании? излогается метод cufflinks, хотя начать стоило бы с более простой модели - подсчета всех ридов что пересеклись с данным геном (HTseq). Название раздела "cufflinks" (особенно без объяснения того что это одна из многих программ) - не годится. Кроме cufflinks есть еще куча вариантов. "Систематические ошибки и воспроизводимость" - неплохо бы написать про биологическую вариабельность, необходимость реплик, как технических так и биологических. Раздел про микрочипы - непонятно зачем писать как делают чипы, это статья про экспрессию а не про производство чипов. При этом как из чипов определяется уровень экспрессии (лог интенсивности, нормализация) - не написано. Неплохо бы прояснить несколько моментов: а) экспрессия гена = sum(экспресии изоформ) б) "находят применение в диагностике и исследовании различных заболевани" - нужна ссылка. Вообще раздел Применение очень беден - дифэкспрессия используется повсеместно, неплохо бы привести несколько примеров (отличия между тканями, видами, в ответе на стресс, временные ряды - с ссылками разумеется). Iaa.aka 07:25, 24 мая 2013 (UTC)
К разделу 3 Сравнение экспрессии генов - до попарного сравнения
править- "differential (two samples) analysis of gene expression" - зачем тут английский текст?
- иджентичных
- RPKM - Read Per Kilobase per Million mapped reads - необходимо перевести на русский
- вариабельность бывает биологическая и техническая. Биологическую собственно и изучают, но иногда она бывает и между образцами относящимися к одной экспериментальной группе (это может происходить как из-за генетических факторов так и из-за факторов среды). Тогда ее надо учитывать (говорить что она мешает - не совсем корректно, это примерно как говорить что принцип неопределенности мешает изучать физику)
- Нормализация - тут зачем-то перечислены причины технической вариабельности (хотя в тексте написано что будет и биологическая) к нормализации это не имеет отношения. Тут надо объяснить зачем нужна нормализация (в первую очередь для контроля за размером библиотеки и (в случае чипов) кол-вом РНК/длительностью экспозиции), в чем проблема линейной нормализации (чипы - нелинейная зависимость концентрация/интенсивность, РНК-сек - возможный сильный вклад в размер библиотеки маленькой группы рнк (рРНК, митохондриальная, рибосомальные белки)). Надо не забыть что можно сравнивать один и тот же ген в нескольких образцах - тогда на его длину можно не нормировать, если сравнивать два гена в одном образце - нужно нормировать. Тут надо коротко перечислить методы нормализации (квантильная, деление на суммы, деление на суммы отбросив крайние квантили, деление на медиану отношения (Huber))
к разделу 3.3 парное сравнение
править- Начать раздел надо с определения, что-то вроде: - сравнение двух групп образцов и поиск генов, чьи уровни экспрессии значимо отличаются между двумя группами.
- "При анализе данных RNA-Seq, получаемые значения количества картируемых фрагментов натуральные, для анализа случайную величину принимают распределенной по Пуассону, как обратное биномиальное и даже бета-биномиальное." - это предложение очень труднопонимаемо.
- раздел написан крайне путано. Наведите порядок в изложении. разделите методы на основанные на дискретных и непрерывных распределениях. Не забудьте что вторые можно точно также использовать для РНК-сек. В случае нормального распределения дисперсия является одним из параметров распределения, поэтому с ней нет особых проблем, в случае Пуассона - дисперсия равно среднему, что неработает из-за биологической вариабельности, поэтому используют другие распределения (негативно биномиальное). регуляризованный т-тест - фактически то же самое что методы в edgeR и deseq для определения дисперсии используя информацию обо всех генах. Объедените это в один раздел.
- t-test - формулы не нужны, сделайте ссылку на соответствующую страницу.
- "(Картинка???)" - действительно ???
- Регуляризованный t-тест - нужно ясно написать что он позволяет использовать информацию о других генах для оценки вариабельности данного - и экономить таким образом на репликах. Неплохобы сократить число формул - особенно если
- "Исходными данными методов/программ анализа дифференциально экспрессирующихся генов являются матрицы, содержащие данные о количестве фрагментов, картированных на ген/экзон для каждого образца в эксперименте RNA-Seq" - куда делись чипы?
- "модели Пуассона для отсчетов," - каких еще отсчетов?
- "(гены???)" - ??????
- почему-то все что касается дискретных распределений идет в главе Модели.
к разделу 3.5 Множественное сравнение
править- множественно сравнение возхможно либо как много попарных либо как построение модели учитывающей все факторы.
- Однофакторная линейная модель - почему только однофакторная? почему в перечислении при этом указаны только парные сравнения, хотя раздел вроде про множественное сравнение? как определяется значимость (ответ - анова)?
- Обобщенная линейная модель - по использованию НИЧЕМ не отличается от обычной линейной, кроме того что работает с бОльшим семейством распределений. Не надо писать тут формул - дайте ссылку на соответствующую страницу.
- "Данная модель позволяет быстро сравнивать несколько групп, а так же делать более сложные сравнения, например, сопоставлять значения экспрессии генов одного эксперимента и усредненных значений двух других экспериментов и т.п." - получается что GLM позволяет это делать а lm - нет. Это не верно, в плане сложности моделей lm и glm ИДЕНТИЧНЫ.
- все последующие разделы касаются способов анализа lm и (при замене analysis-of-variance на analysis-of-deviance) glm. Однако понять это из текста решительно невозможно.
риды - безграмотный жаргон
правитьВместо термина "рид" - лучше использовать термин "прочтение" --Sirozha.ru 13:13, 31 января 2014 (UTC)
перевод RPKM
правитьпрочтения на тысячу оснований на миллион картированных прочтений
По новым исправлениям
правитьЧто нужно еще исправить: