MNIST (база данных)

База данных MNIST (сокращение от «Modified National Institute of Standards and Technology») — объёмная база данных образцов рукописного написания цифр. База данных является стандартом, предложенным Национальным институтом стандартов и технологий США с целью калибрации и сопоставления методов распознавания изображений с помощью машинного обучения в первую очередь на основе нейронных сетей^[1]^[2]. Данные состоят из заранее подготовленных примеров изображений, на основе которых проводится обучение и тестирование систем^[3]^[4]. База данных была создана после переработки оригинального набора чёрно-белых образцов размером 20x20 пикселей NIST. Создатели базы данных NIST, в свою очередь, использовали набор образцов из Бюро переписи населения США, к которому были добавлены ещё тестовые образцы, написанные студентами американских университетов^[5]. Образцы из набора NIST были нормализированы, прошли сглаживание и приведены к серому полутоновому изображению размером 28x28 пикселей^[5].

База данных MNIST содержит 60000 изображений для обучения и 10000 изображений для тестирования^[6]. Половина образцов для обучения и тестирования были взяты из набора NIST для обучения, а другая половина — из набора NIST для тестирования^[7].

Производились многочисленные попытки достичь минимальной ошибки после обучения по базе данных MNIST, которые обсуждались в научной литературе. Рекордные результаты указывались в публикациях, посвящённых использованию свёрточных нейронных сетей, уровень ошибки был доведён до 0,23 %^[8]. Сами создатели базы данных предусмотрели несколько методов тестирования^[5]. В оригинальной работе указывается, что использование метода опорных векторов позволяет достичь уровня ошибки 0,8 %^[9].

Качество результата и развитие подходов

В некоторых работах отмечают высокие результаты систем, построенных на ансамблях из нескольких нейронных сетей; при этом качество распознавания цифр для базы MNIST оказывается сравнимым с уровнем человека, а для других задач распознавания, в частности, для дорожных знаков — даже в два раза лучше^[8].

На оригинальных страницах создателей^[5] отмечаются ошибки в 12 % при использовании простых линейных классификаторов без предварительной обработки^[9].

В 2004 году система LIRA, использующая трёхслойный перцептрон Розенблатта, получила уровень ошибки 0,42 %^[10].

Проводились исследование на обучении по системе MNIST с использованием случайных искажений. В качестве искажений вводились аффинные или упругие преобразования^[5]. Иногда такие системы достигали хороших показателей, в частности имеются публикации про уровень ошибки 0,39 %^[11].

В 2011 был достигнут уровень ошибок 0,27 % при использовании нейронных сетей^[12]. В 2013 появились публикации о достижении ошибки 0,21 %, используя регуляризацию нейронных сетей (через разрывы соединений DropConnect)^[13].

Позднее применение одиночной свёрточной нейронной сети позволило улучшить качество до уровня ошибки 0,31 %^[14]. Самый лучший результат на одиночной свёрточной нейронной сети показала система, полученная после 74 эпох обучения — 0,27 %^[15]. Однако ансамбль из пяти свёрточных нейронных сетей позволил добиться 0,21%-го уровня ошибок^[16]^[17]. В 2018 году исследователи, использующие Random Multimodel Deep Learning (RMDL), сообщили об ошибке в размере 0,18 процента, улучшив предыдущий наилучший результат: новый ансамбль, метод глубокого обучения для классификации ^[18].

Сопоставление систем

В таблице собраны примеры результатов машинного обучения в различных системах классификации изображений:^[19]

Тип	Структура	Искажения	Предварительная обработка	Ошибка (%)
Линейный классификатор	Одноуровневый перцептрон	Нет	Нет	12^[8]
Линейный классификатор	Попарный линейный классификатор	Нет	Выравнивание	7.6^[9]
Метод k ближайших соседей	K-NN с нелинейной деформацией (P2DHMDM)	Нет	Shiftable edges	0.52^[20]
Gradient boosting	Обработка остатков на базе признаков Хаара	Нет	Признаки Хаара	0.87^[21]
Нелинейный классификатор	40 PCA + квадратичный классификатор	Нет	Нет	3.3^[9]
Метод опорных векторов	Виртуальная система опорных векторов, deg-9 poly, 2-pixel jittered	Нет	Выравнивание	0.56^[22]
Нейронная сеть	2-уровневая сеть 784-800-10	Нет	Нет	1.6^[23]
Нейронная сеть	2-уровневая сеть 784-800-10	Упругие деформации	Нет	0.7^[23]
Глубокая нейронная сеть	6-уровневая сеть 784-2500-2000-1500-1000-500-10	Упругие деформации	Нет	0.35^[24]
Свёрточная нейронная сеть	6-уровневая сеть 784-40-80-500-1000-2000-10	Нет	Расширение данных для обучения	0.31^[14]
Свёрточная нейронная сеть	6-уровневая сеть 784-50-100-500-1000-10-10	Нет	Расширение данных для обучения	0.27^[15]
Свёрточная нейронная сеть	Ансамбль из 35 CNN-сетей, 1-20-P-40-P-150-10	Упругие деформации	С нормализацией	0.23^[8]
Свёрточная нейронная сеть	Ансамбль из 5 CNN-сетей, 6-уровней 784-50-100-500-1000-10-10	Нет	Расширение данных для обучения	0.21^[16]
Случайное мультимодельное глубокое обучение (RMDL)	30 моделей случайного глубокого обучения (RDL) (10 CNN, 10 RNN и 10 DNN)	Нет	Нет	0.18^[18]

См. также

Примечания

↑ Support vector machines speed pattern recognition - Vision Systems Design (неопр.). Vision Systems Design. Дата обращения: 17 августа 2013. Архивировано 21 сентября 2013 года.
↑ Gangaputra, Sachin Handwritten digit database (неопр.). Дата обращения: 17 августа 2013. Архивировано 21 сентября 2013 года.
↑ Qiao, Yu THE MNIST DATABASE of handwritten digits (неопр.) (2007). Дата обращения: 18 августа 2013. Архивировано 11 февраля 2018 года.
↑ Platt, John C. Using analytic QP and sparseness to speed training of support vector machines (англ.) // Advances in Neural Information Processing Systems : journal. — 1999. — P. 557—563. Архивировано 4 марта 2016 года.
↑ ¹ ² ³ ⁴ ⁵ LeCun, Yann MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges (неопр.). Дата обращения: 17 августа 2013. Архивировано 7 апреля 2021 года.
↑ Kussul, Ernst; Tatiana Baidyk. Improved method of handwritten digit recognition tested on MNIST database (англ.) // Image and Vision Computing : journal. — 2004. — Vol. 22, no. 12. — P. 971—981. — doi:10.1016/j.imavis.2004.03.008.
↑ Zhang, Bin; Sargur N. Srihari. Fast k -Nearest Neighbor Classification Using Cluster-Based Trees (англ.) // IEEE Transactions on Pattern Analysis and Machine Intelligence^[англ.] : journal. — 2004. — Vol. 26, no. 4. — P. 525—528. — doi:10.1109/TPAMI.2004.1265868. — PMID 15382657. Архивировано 25 июля 2021 года.
↑ ¹ ² ³ ⁴ Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber. Multi-column deep neural networks for image classification (англ.) // 2012 IEEE Conference on Computer Vision and Pattern Recognition : journal. — 2012. — P. 3642—3649. — ISBN 978-1-4673-1228-8. — doi:10.1109/CVPR.2012.6248110. — arXiv:1202.2745. Архивировано 17 октября 2016 года.
↑ ¹ ² ³ ⁴ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner. Gradient-Based Learning Applied to Document Recognition (англ.) // Proceedings of the IEEE 86 : journal. — 1998. — Vol. 86, no. 11. — P. 2278—2324. — doi:10.1109/5.726791. Архивировано 30 ноября 2016 года.
↑ Kussul, Ernst; Tatiana Baidyk. Improved method of handwritten digit recognition tested on MNIST database (англ.) // Image and Vision Computing : journal. — 2004. — Vol. 22. — P. 971—981. — doi:10.1016/j.imavis.2004.03.008. Архивировано 21 сентября 2013 года.
↑ Ranzato, Marc’Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun. Efficient Learning of Sparse Representations with an Energy-Based Model (англ.) // Advances in Neural Information Processing Systems : journal. — 2006. — Vol. 19. — P. 1137—1144. Архивировано 22 марта 2016 года.
↑ Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber. Convolutional neural network committees for handwritten character classification (англ.) // 2011 International Conference on Document Analysis and Recognition (ICDAR) : journal. — 2011. — P. 1135—1139. — doi:10.1109/ICDAR.2011.229. Архивировано 22 февраля 2016 года.
↑ Wan, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularization of Neural Network using DropConnect. International Conference on Machine Learning(ICML).
↑ ¹ ² Romanuke, Vadim The single convolutional neural network best performance in 18 epochs on the expanded training data at Parallel Computing Center, Khmelnitskiy, Ukraine (неопр.). Дата обращения: 16 ноября 2016. Архивировано 16 ноября 2016 года.
↑ ¹ ² Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraine) gives a single convolutional neural network performing on MNIST at 0.27 percent error rate. (неопр.) Дата обращения: 24 ноября 2016. Архивировано 24 ноября 2016 года.
↑ ¹ ² Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraine) represents an ensemble of 5 convolutional neural networks which performs on MNIST at 0.21 percent error rate. (неопр.) Дата обращения: 24 ноября 2016. Архивировано 24 ноября 2016 года.
↑ Romanuke, Vadim. Training data expansion and boosting of convolutional neural networks for reducing the MNIST dataset error rate (англ.) // Research Bulletin of NTUU “Kyiv Polytechnic Institute” : journal. — 2016. — Vol. 6. — P. 29—34. — doi:10.20535/1810-0546.2016.6.84115.
↑ ¹ ² Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. RMDL: Random Multimodel Deep Learning for Classification (неопр.) (3 мая 2018). Дата обращения: 10 мая 2018. Архивировано 18 мая 2018 года.
↑ Le Cunn, THE MNIST DATABASE of handwritten Digits (неопр.). Дата обращения: 11 декабря 2016. Архивировано 7 апреля 2021 года.
↑ Keysers, Daniel; Thomas Deselaers; Christian Gollan; Hermann Ney. Deformation models for image recognition (неопр.) // EEE Transactions on Pattern Analysis and Machine Intelligence. — 2007. — August (т. 29, № 8). — С. 1422—1435. Архивировано 4 марта 2016 года.
↑ Kégl, Balázs; Róbert Busa-Fekete. Boosting products of base classifiers (неопр.) // Proceedings of the 26th Annual International Conference on Machine Learning. — 2009. — С. 497—504. Архивировано 20 декабря 2016 года.
↑ DeCoste and Scholkopf, MLJ 2002
↑ ¹ ² Patrice Y. Simard; Dave Steinkraus; John C. Platt. Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis (англ.) // Document Analysis and Recognition, 2003. Proceedings. Seventh International Conference on : journal. — IEEE, 2003. — doi:10.1109/ICDAR.2003.1227801. Архивировано 22 декабря 2015 года.
↑ Ciresan, Claudiu Dan; Dan, Ueli Meier, Luca Maria Gambardella, and Juergen Schmidhuber. Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition (англ.) // Neural Computation : journal. — 2010. — December (vol. 22, no. 12). — doi:10.1162/NECO_a_00052. — arXiv:1003.0358.

Литература

Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen. Multi-column deep neural networks for image classification (англ.) // 2012 IEEE Conference on Computer Vision and Pattern Recognition^[англ.] : journal. — New York, NY: Institute of Electrical and Electronics Engineers (IEEE), 2012. — June. — P. 3642—3649. — ISBN 9781467312264. — doi:10.1109/CVPR.2012.6248110. — arXiv:1202.2745v1.

Ссылки

MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges — The home of the database
Neural Net for Handwritten Digit Recognition in JavaScript — A JavaScript implementation of a neural network for handwritten digit classification based on the MNIST database

[1] Support vector machines speed pattern recognition - Vision Systems Design (неопр.). Vision Systems Design. Дата обращения: 17 августа 2013. Архивировано 21 сентября 2013 года.

[2] Gangaputra, Sachin Handwritten digit database (неопр.). Дата обращения: 17 августа 2013. Архивировано 21 сентября 2013 года.

[3] Qiao, Yu THE MNIST DATABASE of handwritten digits (неопр.) (2007). Дата обращения: 18 августа 2013. Архивировано 11 февраля 2018 года.

[4] Platt, John C. Using analytic QP and sparseness to speed training of support vector machines (англ.) // Advances in Neural Information Processing Systems : journal. — 1999. — P. 557—563. Архивировано 4 марта 2016 года.

[LeCun-5] ¹ ² ³ ⁴ ⁵ LeCun, Yann MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges (неопр.). Дата обращения: 17 августа 2013. Архивировано 7 апреля 2021 года.

[6] Kussul, Ernst; Tatiana Baidyk. Improved method of handwritten digit recognition tested on MNIST database (англ.) // Image and Vision Computing : journal. — 2004. — Vol. 22, no. 12. — P. 971—981. — doi:10.1016/j.imavis.2004.03.008.

[7] Zhang, Bin; Sargur N. Srihari. Fast k -Nearest Neighbor Classification Using Cluster-Based Trees (англ.) // IEEE Transactions on Pattern Analysis and Machine Intelligence^[англ.] : journal. — 2004. — Vol. 26, no. 4. — P. 525—528. — doi:10.1109/TPAMI.2004.1265868. — PMID 15382657. Архивировано 25 июля 2021 года.

[Multideep-8] ¹ ² ³ ⁴ Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber. Multi-column deep neural networks for image classification (англ.) // 2012 IEEE Conference on Computer Vision and Pattern Recognition : journal. — 2012. — P. 3642—3649. — ISBN 978-1-4673-1228-8. — doi:10.1109/CVPR.2012.6248110. — arXiv:1202.2745. Архивировано 17 октября 2016 года.

[Gradient-9] ¹ ² ³ ⁴ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner. Gradient-Based Learning Applied to Document Recognition (англ.) // Proceedings of the IEEE 86 : journal. — 1998. — Vol. 86, no. 11. — P. 2278—2324. — doi:10.1109/5.726791. Архивировано 30 ноября 2016 года.

[10] Kussul, Ernst; Tatiana Baidyk. Improved method of handwritten digit recognition tested on MNIST database (англ.) // Image and Vision Computing : journal. — 2004. — Vol. 22. — P. 971—981. — doi:10.1016/j.imavis.2004.03.008. Архивировано 21 сентября 2013 года.

[11] Ranzato, Marc’Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun. Efficient Learning of Sparse Representations with an Energy-Based Model (англ.) // Advances in Neural Information Processing Systems : journal. — 2006. — Vol. 19. — P. 1137—1144. Архивировано 22 марта 2016 года.

[12] Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber. Convolutional neural network committees for handwritten character classification (англ.) // 2011 International Conference on Document Analysis and Recognition (ICDAR) : journal. — 2011. — P. 1135—1139. — doi:10.1109/ICDAR.2011.229. Архивировано 22 февраля 2016 года.

[13] Wan, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularization of Neural Network using DropConnect. International Conference on Machine Learning(ICML).

[Romanuke1-14] ¹ ² Romanuke, Vadim The single convolutional neural network best performance in 18 epochs on the expanded training data at Parallel Computing Center, Khmelnitskiy, Ukraine (неопр.). Дата обращения: 16 ноября 2016. Архивировано 16 ноября 2016 года.

[Romanuke2-15] ¹ ² Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraine) gives a single convolutional neural network performing on MNIST at 0.27 percent error rate. (неопр.) Дата обращения: 24 ноября 2016. Архивировано 24 ноября 2016 года.

[Romanuke3-16] ¹ ² Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraine) represents an ensemble of 5 convolutional neural networks which performs on MNIST at 0.21 percent error rate. (неопр.) Дата обращения: 24 ноября 2016. Архивировано 24 ноября 2016 года.

[Romanuke4-17] Romanuke, Vadim. Training data expansion and boosting of convolutional neural networks for reducing the MNIST dataset error rate (англ.) // Research Bulletin of NTUU “Kyiv Polytechnic Institute” : journal. — 2016. — Vol. 6. — P. 29—34. — doi:10.20535/1810-0546.2016.6.84115.

[Kowsari2018-18] ¹ ² Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. RMDL: Random Multimodel Deep Learning for Classification (неопр.) (3 мая 2018). Дата обращения: 10 мая 2018. Архивировано 18 мая 2018 года.

[19] Le Cunn, THE MNIST DATABASE of handwritten Digits (неопр.). Дата обращения: 11 декабря 2016. Архивировано 7 апреля 2021 года.

[20] Keysers, Daniel; Thomas Deselaers; Christian Gollan; Hermann Ney. Deformation models for image recognition (неопр.) // EEE Transactions on Pattern Analysis and Machine Intelligence. — 2007. — August (т. 29, № 8). — С. 1422—1435. Архивировано 4 марта 2016 года.

[21] Kégl, Balázs; Róbert Busa-Fekete. Boosting products of base classifiers (неопр.) // Proceedings of the 26th Annual International Conference on Machine Learning. — 2009. — С. 497—504. Архивировано 20 декабря 2016 года.

[22] DeCoste and Scholkopf, MLJ 2002

[simard2003-23] ¹ ² Patrice Y. Simard; Dave Steinkraus; John C. Platt. Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis (англ.) // Document Analysis and Recognition, 2003. Proceedings. Seventh International Conference on : journal. — IEEE, 2003. — doi:10.1109/ICDAR.2003.1227801. Архивировано 22 декабря 2015 года.

[24] Ciresan, Claudiu Dan; Dan, Ueli Meier, Luca Maria Gambardella, and Juergen Schmidhuber. Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition (англ.) // Neural Computation : journal. — 2010. — December (vol. 22, no. 12). — doi:10.1162/NECO_a_00052. — arXiv:1003.0358.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]