Теоретические основы и методы обучения глубоких нейросетей
Автор программы курса: Бурнаев Евгений Владимирович
Преподаватель: Бурнаев Евгений Владимирович
Аннотация
Аннотация: В настоящее время глубокое обучение - весьма перспективный и популярный раздел машинного обучения, теоретические основы которого мало изучены. Действительно, использование нейронных сетей в прикладных задачах зачастую позволяет существенно повысить точность решения, но пока отсутствует хорошее теоретическое объяснение наблюдаемым результатам. Тем не менее, в последние несколько лет наблюдается значительный рост числа публикаций, которые проливают свет на теоретические свойства глубокого обучения, и проясняются интересные связи между глубоким обучением и многими областями математики, такими как теория приближений, дифференциальные уравнения, теория информации, теория случайных матриц и статистическая физика. В рамках данного курса планируется познакомить студентов с современными результатами в этой области машинного обучения.
Требования: Предполагается, что слушатели прошли курсы теории вероятностей и математической статистики. Желательно знакомство с основами машинного обучения.
Курс будет проводиться дистанционно.
Время: Четверг 18:00. Первое занятие - 10 февраля 2022 года.
Для регистрации на курс, пожалуйста, заполните форму.
План курса
Лекции 1-2: Основные понятие машинного обучения. Нейронные сети и их типы. Примеры использования нейронных сетей. Инициализация и обучение глубоких нейронных сетей. Интригующие свойства глубоких нейросетей.
Лекции 2-3: Операция свертки. Сверточные нейронные сети. Примеры сверточных нейронных сетей. Рекуррентные нейронные сети для работы с последовательными данными. Механизм внимания.
Семинары 1-2: Библиотека PyTorch. Реализации сверточных и рекуррентных нейронных сетей.
Лекция 5: Свойства функции ошибки, оптимизируемой при обучении нейросетей. Использование топологического анализа данных для качественного и количественного анализа свойств функции ошибки. Свойства стохастического градиентного спуска в обучении нейросетей.
Лекции 7-8: Понятие выразительности глубоких нейросетей. Универсальная теорема аппроксимации. Элементы теории приближений. Эффективность аппроксимации функций глубокими нейросетями.
Лекции 9-10: Динамическая устойчивость глубоких нейросетей и её влияние на эффективность обучения. Свойства динамики обучения глубоких нейросетей.
Лекции 11-12: Теория вероятно почти корректного обучения (Probably Approximately Correct). Оценка обобщающей способности. VC-размерность. Радемахеровская сложность. Число покрытия. Неравенство больших уклонений. PAC-байесовская оценка обобщающей способности.
Лекция 13: Предельные свойства нейросетей. Описание предельных свойств глубоких нейросетей на языке ядерных функций. Связь нейросетей и моделей машинного обучения на основе гауссовских процессов.
Лекция 14: Современные нейросетевые архитектуры. Генеративные модели. Состязательное обучение.
Семинар 3: Реализация генеративных моделей. Автокодировщик (AE). генеративная состязательная сеть (GAN).
Отчетность по курсу: В течение семестра студентам будет предложено выполнить практическое задание по обучению нейросетей и изучению их эмпирических свойств. В качестве отчетного задания студенты должны реализовать проект на заданные лектором темы (проведение вычислительных экспериментов, репликация и обобщение результатов современных статей по темам курса). По результатам выполнения проектов студентами предполагается написание отчетов (на английском языке по заранее обговоренным правилам и с использованием заданного лектором стилевого файла LaTeX) и доклад результатов в виде презентации перед слушателями курса.
Литература
Рекомендуемая литература:
- Обзорная лекция: S. Arora, Toward theoretical understanding of deep learning https://unsupervised.cs.princeton.edu/deeplearningtutorial.html
- Введение в практические аспекты глубокого обучения: https://www.deeplearningbook.org/
- Классическое введение в теоретическое машинное обучение и нейросети: “Neural Network Learning - Theoretical Foundations” by Martin Anthony, Peter L. Bartlett (2009). https://www.cambridge.org/core/books/neural-network-learning/665C8C7EB5E2ABC5367A55ADB04E2866
- Теоретические основы машинного обучения: Foundations of Machine Learning Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar MIT Press, Second Edition, 2018. https://cs.nyu.edu/~mohri/mlbook
Статьи по специальным темам:
- Understanding deep learning requires rethinking generalization
Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, Oriol Vinyals https://arxiv.org/abs/1611.03530
- Exponential expressivity in deep neural networks through transient chaos
Ben Poole, Subhaneil Lahiri, Maithra Raghu, Jascha Sohl-Dickstein, Surya Ganguli https://arxiv.org/abs/1606.05340
- Error bounds for approximations with deep ReLU networks
Dmitry Yarotsky https://arxiv.org/abs/1610.01145
- Benefits of depth in neural networks
Matus Telgarsky https://arxiv.org/abs/1602.04485
- Deep Information Propagation
Samuel S. Schoenholz, Justin Gilmer, Surya Ganguli, Jascha Sohl-Dickstein https://arxiv.org/abs/1611.01232
- Resurrecting the sigmoid in deep learning through dynamical isometry: theory and practice
Jeffrey Pennington, Samuel S. Schoenholz, Surya Ganguli https://arxiv.org/abs/1711.04735
- The loss surface of deep and wide neural networks
Quynh Nguyen, Matthias Hein https://arxiv.org/abs/1704.08045
- Gradient Descent Converges to Minimizers
Jason D. Lee, Max Simchowitz, Michael I. Jordan, Benjamin Recht https://arxiv.org/abs/1602.04915
- Loss Surfaces, Mode Connectivity, and Fast Ensembling of DNNs
Timur Garipov, Pavel Izmailov, Dmitrii Podoprikhin, Dmitry Vetrov, Andrew Gordon Wilson https://arxiv.org/abs/1802.10026
- Nearly-tight VC-dimension and pseudodimension bounds for piecewise linear neural networks
Peter L. Bartlett, Nick Harvey, Chris Liaw, Abbas Mehrabian https://arxiv.org/abs/1703.02930
- A PAC-Bayesian Approach to Spectrally-Normalized Margin Bounds for Neural Networks
Behnam Neyshabur, Srinadh Bhojanapalli, Nathan Srebro https://openreview.net/forum?id=Skz_WfbCZ
- Neural Tangent Kernel: Convergence and Generalization in Neural Networks
Arthur Jacot, Franck Gabriel, Clément Hongler https://arxiv.org/abs/1806.07572
- Gaussian Process Behaviour in Wide Deep Neural Networks
Alexander G. de G. Matthews, Mark Rowland, Jiri Hron, Richard E. Turner, Zoubin Ghahramani https://arxiv.org/abs/1804.11271
- Asymptotics of Wide Networks from Feynman Diagrams
Ethan Dyer, Guy Gur-Ari https://arxiv.org/abs/1909.11304
- Generative Adversarial Networks
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio https://arxiv.org/abs/1406.2661