Common Crawl

Common Crawl
Common Crawl
Дата основания	2007
Основатели	Гил Эльбаз[англ.]
Расположение	Сан-Франциско, Лос-Анжелес Калифорния США
Ключевые фигуры	Питер Норвиг, Ричард Скрента
Сфера деятельности	издательское дело и сбор данных
Сайт	commoncrawl.org

Common Crawl — некоммерческая организация, которая сканирует Интернет и бесплатно предоставляет публике свои архивы и наборы данных^[1]^[2]. Веб-архив Common Crawl на ноябрь 2024 года имеет более 250 миллиардов страниц, собранных с 2008 года^[3].

Common Crawl был основан Гилом Эльбазом^[англ.]^[4]. Консультантами некоммерческой организации являются Питер Норвиг и Джой Ито^[5]. Поисковики организации придерживаются политики nofollow и robots.txt. Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.

Набор данных Common Crawl включает работы, защищенные авторским правом, и распространяется из США на условиях добросовестного использования. Исследователи в других странах использовали такие методы, как перетасовка предложений или обращение к набору данных общего сканирования, чтобы обойти закон об авторском праве в других правовых юрисдикциях^[6].

По состоянию на июнь 2022 года в наборах данных Common Crawl 46-47 % документов английский был основным языком (за ним следовали русский, немецкий, китайский, французский, японский, испанский, причём только русский достигал доли в 6 %, остальные не более 4% каждый)^[7]. Но со временем доля английского постепенно падает и на ноябрь 2024 года составляет уже 43-44 %^[8].

История

Amazon Web Services начала размещать архив Common Crawl в рамках своей программы общедоступных наборов данных в 2012 году^[9].

Организация начала выпускать файлы метаданных и текстовые выходные данные сканеров вместе с файлами .arc в июле 2012 года. Ранее архивы Common Crawl включали только файлы .arc^[10].

В декабре 2012 года blekko пожертвовала поисковой системе Common Crawl метаданные, которые blekko собрала с февраля по октябрь 2012 года^[11]. Пожертвованные данные помогли Common Crawl "улучшить свой обход, избегая при этом спама, порнографии и влияния чрезмерного SEO"^[11].

В 2013 году Common Crawl начал использовать веб-сканер Nutch от Apache Software Foundation вместо пользовательского сканера^[12]. Common Crawl переключился с использования файлов .arc на .файлы warc с проверкой в ноябре 2013 года^[13].

Отфильтрованная версия Common Crawl использовалась для обучения языковой модели OpenAI GPT-3, анонсированной в 2020 году^[14].

Примечания

↑ Rosanna Xia. Tech entrepreneur Gil Elbaz made it big in L.A. (англ.). Los Angeles Times (5 февраля 2012). Дата обращения: 4 ноября 2024. Архивировано 15 октября 2023 года.
↑ Gil Elbaz and Common Crawl (англ.). NBC (13 апреля 2013). Дата обращения: 4 ноября 2024. Архивировано 27 ноября 2024 года.
↑ Common Crawl - Open Repository of Web Crawl Data (англ.). commoncrawl.org. Дата обращения: 4 ноября 2024. Архивировано 5 ноября 2024 года.
↑ ThisWeekIn Network This Week in Startups 222 (англ.) (11 января 2012). Дата обращения: 4 ноября 2024.
↑ Nonprofit Common Crawl Offers a Database of the Entire Web, For Free, and Could Open Up Google to New Competition (англ.). MIT Technology Review (26 июня 2014). Дата обращения: 4 ноября 2024. Архивировано 26 июня 2014 года.
↑ Roland Schäfer. CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) / Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis. — Portorož, Slovenia: European Language Resources Association (ELRA), 2016-05. — С. 4500–4504. Архивировано 7 октября 2024 года.
↑ Statistics of Common Crawl Monthly Archives by commoncrawl (неопр.). web.archive.org (12 июня 2022). Дата обращения: 4 ноября 2024. Архивировано 12 июня 2022 года.
↑ Statistics of Common Crawl Monthly Archives by commoncrawl (неопр.). web.archive.org (1 октября 2024). Дата обращения: 4 ноября 2024. Архивировано 1 октября 2024 года.
↑ Common Crawl To Add New Data In Amazon Web Services Bucket - Semanticweb.com (неопр.). web.archive.org (1 июля 2014). Дата обращения: 4 ноября 2024. Архивировано 1 июля 2014 года.
↑ Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore (неопр.). web.archive.org (12 августа 2014). Дата обращения: 4 ноября 2024. Архивировано 12 августа 2014 года.
↑ ¹ ² Blekko Data Donation Is A Big Benefit To Common Crawl (англ.). web.archive.org (12 августа 2014). Дата обращения: 4 ноября 2024. Архивировано 12 августа 2014 года.
↑ Common Crawl - Blog - Common Crawl's Move to Nutch (англ.). commoncrawl.org (20 февраля 2014). Дата обращения: 4 ноября 2024. Архивировано 27 ноября 2024 года.
↑ [2013-11-27 Common Crawl - Blog - New Crawl Data Available!] (англ.). commoncrawl.org (27 ноября 2013). Дата обращения: 4 ноября 2024.
↑ Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. Language Models are Few-Shot Learners (англ.) // arxiv.org. — 2020. — doi:10.48550/arXiv.2005.14165. — arXiv:2005.14165.

[1] Rosanna Xia. Tech entrepreneur Gil Elbaz made it big in L.A. (англ.). Los Angeles Times (5 февраля 2012). Дата обращения: 4 ноября 2024. Архивировано 15 октября 2023 года.

[2] Gil Elbaz and Common Crawl (англ.). NBC (13 апреля 2013). Дата обращения: 4 ноября 2024. Архивировано 27 ноября 2024 года.

[3] Common Crawl - Open Repository of Web Crawl Data (англ.). commoncrawl.org. Дата обращения: 4 ноября 2024. Архивировано 5 ноября 2024 года.

[4] ThisWeekIn Network This Week in Startups 222 (англ.) (11 января 2012). Дата обращения: 4 ноября 2024.

[5] Nonprofit Common Crawl Offers a Database of the Entire Web, For Free, and Could Open Up Google to New Competition (англ.). MIT Technology Review (26 июня 2014). Дата обращения: 4 ноября 2024. Архивировано 26 июня 2014 года.

[6] Roland Schäfer. CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) / Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis. — Portorož, Slovenia: European Language Resources Association (ELRA), 2016-05. — С. 4500–4504. Архивировано 7 октября 2024 года.

[7] Statistics of Common Crawl Monthly Archives by commoncrawl (неопр.). web.archive.org (12 июня 2022). Дата обращения: 4 ноября 2024. Архивировано 12 июня 2022 года.

[8] Statistics of Common Crawl Monthly Archives by commoncrawl (неопр.). web.archive.org (1 октября 2024). Дата обращения: 4 ноября 2024. Архивировано 1 октября 2024 года.

[9] Common Crawl To Add New Data In Amazon Web Services Bucket - Semanticweb.com (неопр.). web.archive.org (1 июля 2014). Дата обращения: 4 ноября 2024. Архивировано 1 июля 2014 года.

[10] Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore (неопр.). web.archive.org (12 августа 2014). Дата обращения: 4 ноября 2024. Архивировано 12 августа 2014 года.

[:0-11] ¹ ² Blekko Data Donation Is A Big Benefit To Common Crawl (англ.). web.archive.org (12 августа 2014). Дата обращения: 4 ноября 2024. Архивировано 12 августа 2014 года.

[12] Common Crawl - Blog - Common Crawl's Move to Nutch (англ.). commoncrawl.org (20 февраля 2014). Дата обращения: 4 ноября 2024. Архивировано 27 ноября 2024 года.

[13] [2013-11-27 Common Crawl - Blog - New Crawl Data Available!] (англ.). commoncrawl.org (27 ноября 2013). Дата обращения: 4 ноября 2024.

[14] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. Language Models are Few-Shot Learners (англ.) // arxiv.org. — 2020. — doi:10.48550/arXiv.2005.14165. — arXiv:2005.14165.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]