Подсказка по цепочке рассуждений

Подсказка по цепочке рассуждений — метод улучшения способности к рассуждению больших языковых моделей (БЯМ) путём подсказки им сгенерировать серию промежуточных шагов, которые приводят к окончательному ответу на многоэтапную проблему^[1]. Впервые он был предложен для языковых моделей исследователями Google в 2022 году^[2]^[3].

Было показано, что БЯМ, которые обучаются на больших объёмах текста с использованием методов глубокого обучения, способны генерировать ответы, подобные человеческим^[4]. Хотя БЯМ продемонстрировали впечатляющую производительность при решении различных задач на естественном языке, они по-прежнему сталкиваются с трудностями при выполнении некоторых логических задач, требующих логического мышления и выполнения нескольких последовательных шагов для решения арифметических или логических задач^[5]^[6]^[7]. Чтобы решить эту проблему, подсказка по цепочке рассуждений побуждает модель делать промежуточные шаги в рассуждениях, прежде чем дать окончательный ответ на многоэтапную задачу^[2]^[8].

Например, на вопрос «Вопрос: В столовой было 23 яблока. Если они использовали 20 яблок для готовки и купили ещё 6, то сколько бы яблок у них осталось?», подсказка по цепочке рассуждений может привести к последовательности рассуждений, которые имитируют ход мыслей, например: «A: Изначально в столовой было 23 яблока. Они использовали 20 блок для готовки. Таким образом, у них было 23 — 20 = 3. Они купили ещё 6 яблок, значит, у них 3 + 6 = 9. Ответ 9»^[2]. Это отличается от вывода ответа напрямую.

Было показано, что подсказки по цепочке рассуждений в среднем улучшают производительность БЯМ как в арифметических задачах, так и в логических задачах по сравнению со стандартными методами подсказок^[9]^[10]^[11]. Применительно к PaLM, языковой модели с 540B параметров, подсказки по цепочке рассуждений значительно помогли модели, позволив ей работать наравне с тонко настроенными языковыми моделями для конкретных задач в нескольких задачах, даже установив новый рекорд в то время превысив результат теста на логические рассуждения специализированной для этой задачи математической модели GSM8K^[2].

Подсказки по цепочке рассуждений — это эмерджентное свойство масштаба модели, означающее, что она лучше работает с более масштабными языковыми моделями^[12]^[2]. Также можно тонко настроить модели на наборах данных подсказок по цепочке рассуждений, чтобы ещё больше расширить эту возможность и стимулировать лучшую интерпретируемость результатов^[13]^[14].

Метод

Существует два основных метода получения умозаключений по цепочке рассуждений: подсказка с несколькими выстрелами и подсказка с нулевым выстрелом. Первоначальное предложение подсказок по цепочке рассуждений продемонстрировало подсказку с несколькими выстрелами, в которой по крайней мере один пример вопроса в паре с надлежащими подсказками по цепочке рассуждений, написанными человеком, предшествует подсказке^[2]. Однако с тех пор было обнаружено, что аналогичные рассуждения и прирост производительности также можно получить с помощью подсказок с нулевым выстрелом, которые могут быть такими же простыми, как добавление к подсказке слов «Давайте подумаем шаг за шагом»^[15]. Это обеспечивает лучшее масштабирование, поскольку больше не нужно предлагать инженерам конкретные подсказки по цепочке рассуждений для каждой задачи, чтобы получить соответствующий прирост производительности^[16].

Ограничения

Хотя подсказки по цепочке рассуждений могут существенно улучшить производительность задач обработки естественного языка, существуют определённые недостатки. Подсказки по цепочке рассуждений с нулевым выстрелом увеличили вероятность токсичного результата в задачах, где модели могут делать выводы о маргинализированных группах или вредных темах^[17].

Примечания

↑ McAuliffe. Google's Latest AI Model Can Be Taught How to Solve Problems (англ.). CNET. Дата обращения: 10 марта 2023. Архивировано 26 мая 2023 года.
↑ ¹ ² ³ ⁴ ⁵ ⁶ Wei, Jason (31 October 2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (англ.). Архивировано 7 июня 2023. Дата обращения: 21 марта 2023. {{cite journal}}: Cite journal требует |journal= (справка)
↑ Wei; Zhou Language Models Perform Reasoning via Chain of Thought (англ.). ai.googleblog.com. Дата обращения: 10 марта 2023. Архивировано 11 августа 2023 года.
↑ Tom, Brown (2020). "Language Models are Few-Shot Learners". Advances in Neural Information Processing Systems (англ.). 33. Архивировано 24 марта 2023. Дата обращения: 21 марта 2023.
↑ Dang. Harnessing the power of GPT-3 in scientific research (неопр.). VentureBeat (8 февраля 2023). Дата обращения: 10 марта 2023. Архивировано 18 марта 2023 года.
↑ Montti. Google's Chain of Thought Prompting Can Boost Today's Best Algorithms (англ.). Search Engine Journal (13 мая 2022). Дата обращения: 10 марта 2023. Архивировано 26 марта 2023 года.
↑ Ray. Amazon's Alexa scientists demonstrate bigger AI isn't always better (англ.). ZDNET. Дата обращения: 10 марта 2023. Архивировано 28 марта 2023 года.
↑ Google. Pathways Language Model (PaLM) is a new advanced AI model that uses a technique called chain of thought prompting to do complex tasks like solve math word problems — and even explain its reasoning process step-by-step. #GoogleIO. [твит] (неопр.). Твиттер (14 мая 2023).
↑ Stokel-Walker. AIs become smarter if you tell them to think step by step (неопр.). newscientist.com. Дата обращения: 10 марта 2023.
↑ Google & Stanford Team Applies Chain-of-Thought Prompting to Surpass Human Performance on Challenging BIG-Bench Tasks | Synced (неопр.). syncedreview.com (24 октября 2022). Дата обращения: 10 марта 2023. Архивировано 10 марта 2023 года.
↑ Google I/O 2022: Advancing knowledge and computing (амер. англ.). Google (11 мая 2022). Дата обращения: 10 марта 2023. Архивировано 23 марта 2023 года.
↑ Wei, Jason (31 August 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research (англ.). ISSN 2835-8856. Архивировано 22 марта 2023. Дата обращения: 21 марта 2023.
↑ Chung, Hyung Won (2022). "Scaling Instruction-Finetuned Language Models". doi:10.48550/arXiv.2210.11416. {{cite journal}}: Cite journal требует |journal= (справка)
↑ Wei; Tay, Yi Better Language Models Without Massive Compute (англ.). ai.googleblog.com. Дата обращения: 10 марта 2023. Архивировано 10 марта 2023 года.
↑ Kojima, Takeshi (31 October 2022). "Large Language Models are Zero-Shot Reasoners" (англ.). Архивировано 29 марта 2023. Дата обращения: 21 марта 2023. {{cite journal}}: Cite journal требует |journal= (справка)
↑ Dickson. LLMs have not learned our language — we’re trying to learn theirs (неопр.). VentureBeat (30 августа 2022). Дата обращения: 10 марта 2023. Архивировано 10 марта 2023 года.
↑ Shaikh, Omar (2022). "On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning". doi:10.48550/arXiv.2212.08061. {{cite journal}}: Cite journal требует |journal= (справка)

[1] McAuliffe. Google's Latest AI Model Can Be Taught How to Solve Problems (англ.). CNET. Дата обращения: 10 марта 2023. Архивировано 26 мая 2023 года.

[weipaper-2] ¹ ² ³ ⁴ ⁵ ⁶ Wei, Jason (31 October 2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (англ.). Архивировано 7 июня 2023. Дата обращения: 21 марта 2023. {{cite journal}}: Cite journal требует |journal= (справка)

[3] Wei; Zhou Language Models Perform Reasoning via Chain of Thought (англ.). ai.googleblog.com. Дата обращения: 10 марта 2023. Архивировано 11 августа 2023 года.

[4] Tom, Brown (2020). "Language Models are Few-Shot Learners". Advances in Neural Information Processing Systems (англ.). 33. Архивировано 24 марта 2023. Дата обращения: 21 марта 2023.

[5] Dang. Harnessing the power of GPT-3 in scientific research (неопр.). VentureBeat (8 февраля 2023). Дата обращения: 10 марта 2023. Архивировано 18 марта 2023 года.

[6] Montti. Google's Chain of Thought Prompting Can Boost Today's Best Algorithms (англ.). Search Engine Journal (13 мая 2022). Дата обращения: 10 марта 2023. Архивировано 26 марта 2023 года.

[7] Ray. Amazon's Alexa scientists demonstrate bigger AI isn't always better (англ.). ZDNET. Дата обращения: 10 марта 2023. Архивировано 28 марта 2023 года.

[8] Google. Pathways Language Model (PaLM) is a new advanced AI model that uses a technique called chain of thought prompting to do complex tasks like solve math word problems — and even explain its reasoning process step-by-step. #GoogleIO. [твит] (неопр.). Твиттер (14 мая 2023).

[9] Stokel-Walker. AIs become smarter if you tell them to think step by step (неопр.). newscientist.com. Дата обращения: 10 марта 2023.

[10] Google & Stanford Team Applies Chain-of-Thought Prompting to Surpass Human Performance on Challenging BIG-Bench Tasks | Synced (неопр.). syncedreview.com (24 октября 2022). Дата обращения: 10 марта 2023. Архивировано 10 марта 2023 года.

[11] Google I/O 2022: Advancing knowledge and computing (амер. англ.). Google (11 мая 2022). Дата обращения: 10 марта 2023. Архивировано 23 марта 2023 года.

[12] Wei, Jason (31 August 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research (англ.). ISSN 2835-8856. Архивировано 22 марта 2023. Дата обращения: 21 марта 2023.

[13] Chung, Hyung Won (2022). "Scaling Instruction-Finetuned Language Models". doi:10.48550/arXiv.2210.11416. {{cite journal}}: Cite journal требует |journal= (справка)

[14] Wei; Tay, Yi Better Language Models Without Massive Compute (англ.). ai.googleblog.com. Дата обращения: 10 марта 2023. Архивировано 10 марта 2023 года.

[15] Kojima, Takeshi (31 October 2022). "Large Language Models are Zero-Shot Reasoners" (англ.). Архивировано 29 марта 2023. Дата обращения: 21 марта 2023. {{cite journal}}: Cite journal требует |journal= (справка)

[venture1-16] Dickson. LLMs have not learned our language — we’re trying to learn theirs (неопр.). VentureBeat (30 августа 2022). Дата обращения: 10 марта 2023. Архивировано 10 марта 2023 года.

[17] Shaikh, Omar (2022). "On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning". doi:10.48550/arXiv.2212.08061. {{cite journal}}: Cite journal требует |journal= (справка)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]