ЛАИОН

Large-scale Artificial Intelligence Open Network (LAION) — немецкая некоммерческая организация, заявившая о своей цели «сделать крупномасштабные модели машинного обучения, наборы данных и связанный с ними код доступными для широкой публики»[1]. Она наиболее известна тем, что выпустила ряд больших наборов данных изображений и подписей, извлеченных из Интернета, которые были использованы для обучения ряда известных моделей преобразования текста в изображение, включая Stable Diffusion и Imagen[2][3].

LAION
Изображение логотипа
Тип НКО
Основатели
  • Christoph Schuhmann
  • Jenia Jitsev
  • Richard Vencu
  • Robert Kaczmarczyk
  • Theo Coombes
  • Mehdi Cherti
  • Aarush Katta
  • Jan Ebert
Отрасль Искусственный интеллект
Продукция OpenAssistant
Сайт laion.ai (англ.)

В феврале 2023 года LAION был указан в иске Getty Images против Stable Diffusion в качестве лица, не привлеченного к процессу[4]. В апреле 2023 года на LAION напрямую подал в суд немецкий фотограф, который хотел, чтобы его изображения были удалены из тренировочного набора[5].

15 апреля 2023 года LAION и участники выпустили для публики чат-бота AI-помощника с открытым исходным кодом OpenAssistant.

Наборы данных изображений

править

LAION публично выпустила ряд больших наборов данных пар изображений и подписей, которые широко использовались исследователями искусственного интеллекта. Данные получены из Common Crawl, набора данных извлеченных веб-страниц. Разработчики искали в просканированном html теги <img> и рассматривали их атрибуты alt как подписи. Они использовали CLIP для выявления и удаления изображений, содержание которых не соответствовало их подписям[6]. LAION не хранит содержимое скопированных изображений; скорее, набор данных содержит URL-адреса, указывающие на изображения, которые исследователи должны загрузить сами[7].

Первый такой набор данных, LAION-400M, был выпущен в августе 2021 года и состоял из 400 миллионов пар изображений и подписей. Пары были извлечены из случайного набора веб-страниц, отобранных Common Crawl в период с 2014 по 2021 год[8] Это была попытка воссоздать процесс, используемый OpenAI для сбора 400 миллионов пар изображений и подписей, которые они использовали для обучения модели CLIP. компания решила открыть исходный код модели и веса, но не набор данных для обучения[6]. Imagen, модель преобразования текста в изображение, анонсированная Google Brain в 2022 году, была обучена на LAION-400M в сочетании с частными внутренними наборами данных[9].

Преемник более чем 5 миллиардов пар, LAION-5B, был выпущен в марте 2022 года[10]. На момент его выпуска это был самый большой из существующих свободно доступных наборов данных пар изображений и подписей[6]. Его создание было профинансировано Doodlebot, Hugging Face и Stability AI, компанией, занимающейся искусственным интеллектом, стоящей за финансированием модели преобразования текста в изображение Stable Diffusion, которая была обучена на нем[11].

Пример данных

править
 
Пример одного из миллиардов изображений в наборе данных LAION-5B.

Здесь приведен пример метаданных, связанных с одной записью в наборе данных LAION-5B. Само содержимое изображения, показанное справа, не хранится в наборе данных, а связано только с полем URL:[12]

URL
https://up.wiki.x.io/wikipedia/commons/thumb/4/45/Ammodorcas_clarkei_The_book_of_antilopes_%281894%29.jpg/275px-Ammodorcas_clarkei_The_book_of_antilopes_%281894%29.jpg
Text
Ammodorcas clarkei The book of antelopes (1894).jpg
Width
275 (измеряется в пикселях)
Height
311
Similarity
0,34972 (косинусное сходство между изображением и подписью, измеренное с помощью CLIP. Любые пары, имеющие значения сходства менее 0,3, были исключены из набора данных)
Pwatermark
0,30022 (оценочная вероятность того, что на этом изображении есть водяной знак, определенная моделью ИИ)
Punsafe
0,0000001688 (оценочная вероятность того, что это изображение «небезопасно для работы», согласно оценки модели ИИ)
Aesthetic
6,02298 (приблизительный балл, который оценщик присвоил бы эстетике этого изображения по шкале от 1 до 10)

Ссылки

править
  1. About. LAION.ai. Дата обращения: 26 сентября 2022. Архивировано 22 мая 2023 года.
  2. Edwards, Benj (2022-09-15). "Have AI image generators assimilated your art? New tool lets you check". Ars Technica. Архивировано 12 мая 2023. Дата обращения: 11 мая 2023.
  3. Newman, Marissa; Cantrill, Aggi (2023-04-24). "The Future of AI Relies on a High School Teacher's Free Database". Bloomberg News (англ.). Архивировано 26 апреля 2023. Дата обращения: 24 апреля 2023.
  4. Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135 (амер. англ.). CourtListener. Дата обращения: 8 февраля 2023. Архивировано 8 февраля 2023 года.
  5. A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead. (амер. англ.). Vice. Дата обращения: 4 мая 2023. Архивировано 3 мая 2023 года.
  6. 1 2 3 Alford, Anthony LAION Releases Five Billion Image-Text Pair Dataset LAION-5B. InfoQ (17 мая 2022). Дата обращения: 11 мая 2023. Архивировано 4 мая 2023 года.
  7. Edwards, Benj (2022-09-21). "Artist finds private medical record photos in popular AI training data set". Ars Technica. Архивировано 11 мая 2023. Дата обращения: 11 мая 2023.
  8. Schuhmann, Christoph LAION-400-Million Open Dataset. LAION blog (8 августа 2021). Дата обращения: 26 сентября 2022. Архивировано 29 апреля 2023 года.
  9. Saharia, Chitwan. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding : [англ.] / Chitwan Saharia, William Chan, Saurabh Saxena … [et al.]. — The Neural Information Processing Systems Foundation, 2022-05-23. — P. 46. — doi:10.48550/arXiv.2205.11487. Архивная копия от 23 декабря 2023 на Wayback Machine
  10. Beaumont, Romain LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets. LAION blog (3 марта 2022). Дата обращения: 11 мая 2023. Архивировано 11 мая 2023 года.
  11. Wiggers, Kyle This startup is setting a DALL-E 2-like AI free, consequences be damned. TechCrunch (12 августа 2022). Дата обращения: 11 мая 2023. Архивировано 19 января 2023 года.
  12. image 17024. LAION Aesthetic 6+ dataset explorer. Дата обращения: 26 сентября 2022. Архивировано 2 июня 2023 года.