Скачать "Proximal Policy Optimization (PPO) for LLMs Explained Intuitively"

Скачайте это видео через UDL Client
  • Видео mp4 HD+ со звуком
  • Mp3 в максимальном качестве
  • Файлы любого размера
Теги видео
|

Теги видео

proximal policy optimization
ppo
reinforcement learning
reasoning models
LLM
machine learning
artificial intelligence
У вас уже установлен UDL Helper Вы можете скачивать видео в 1 клик!
Установлено
для
Google Chrome

Описание:

In this video, I break down Proximal Policy Optimization (PPO) from first principles, without assuming prior knowledge of Reinforcement Learning. By the end, you’ll understand the core RL building blocks that led to PPO, including: 🔵 Policy Gradient 🔵 Actor-Critic Models 🔵 The Value Function 🔵 The Generalized Advantage Estimate In the LLM world, PPO was used to train reasoning models like OpenAI's o1/o3, and presumably Claude 3.7, Grok 3, etc. It’s the backbone of Reinforcement Learning with Human Feedback (RLHF) -- which helps align AI models with human preferences and Reinforcement Learning with Verifiable Rewards (RLVR), which gives LLMs reasoning abilities. Papers: - PPO paper: https://arxiv.org/pdf/1707.06347 - GAE paper: https://arxiv.org/pdf/1506.02438 - TRPO paper: https://arxiv.org/pdf/1502.05477 Well-written blogposts: - https://danieltakeshi.github.io/2017/04/02/notes-on-the-generalized-advantage-estimation-paper/ - https://huggingface.co/blog/NormalUhr/rlhf-pipeline - https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/ Implementations: - (Original) OpenAI Baseslines: https://github.com/openai/baselines/blob/ea25b9e8b234e6ee1bca43083f8f3cf974143998/baselines/ppo2 - Hugging Face: https://github.com/huggingface/trl/blob/main/trl/trainer/ppo_trainer.py - Hugging Face docs: https://huggingface.co/docs/trl/main/en/ppo_trainer Mother of all RL books (Barto & Sutton): http://incompleteideas.net/book/RLbook2020.pdf 00:00 Intro 01:21 RL for LLMs 05:53 Policy Gradient 09:23 The Value Function 12:14 Generalized Advantage Estimate 17:17 End-to-end Training Algorithm 18:23 Importance Sampling 20:02 PPO Clipping 21:36 Outro Special thanks to Anish Tondwalkar for discussing some of these concepts with me. Note: At 21:10, A_t should have been inside the min. Thanks @t.w.7065 for catching this.

Медиафайл доступен в форматах

popular icon
Популярные
hd icon
HD видео
audio icon
Только звук
total icon
Все форматы
* — Если видео проигрывается в новой вкладке, перейдите в неё, а затем кликните по видео правой кнопкой мыши и выберите пункт "Сохранить видео как..."
** — Ссылка предназначенная для онлайн воспроизведения в специализированных плеерах

Вопросы о скачивании видео

question iconКак можно скачать видео "Proximal Policy Optimization (PPO) for LLMs Explained Intuitively"?arrow icon

    Сайт http://univideos.ru/ — лучший способ скачать видео или отдельно аудиодорожку, если хочется обойтись без установки программ и расширений.
    Расширение UDL Helper — удобная кнопка, которая органично встраивается на сайты YouTube, Instagram и OK.ru для быстрого скачивания контента.

    Программа UDL Client (для Windows) — самое мощное решение, поддерживающее более 900 сайтов, социальных сетей и видеохостингов, а также любое качество видео, которое доступно в источнике.

    UDL Lite — представляет собой удобный доступ к сайту с мобильного устройства. С его помощью вы можете легко скачивать видео прямо на смартфон.

question iconКакой формат видео "Proximal Policy Optimization (PPO) for LLMs Explained Intuitively" выбрать?arrow icon

    Наилучшее качество имеют форматы FullHD (1080p), 2K (1440p), 4K (2160p) и 8K (4320p). Чем больше разрешение вашего экрана, тем выше должно быть качество видео. Однако следует учесть и другие факторы: скорость скачивания, количество свободного места, а также производительность устройства при воспроизведении.

question iconПочему компьютер зависает при загрузке видео "Proximal Policy Optimization (PPO) for LLMs Explained Intuitively"?arrow icon

    Полностью зависать браузер/компьютер не должен! Если это произошло, просьба сообщить об этом, указав ссылку на видео. Иногда видео нельзя скачать напрямую в подходящем формате, поэтому мы добавили возможность конвертации файла в нужный формат. В отдельных случаях этот процесс может активно использовать ресурсы компьютера.

question iconКак скачать видео "Proximal Policy Optimization (PPO) for LLMs Explained Intuitively" на телефон?arrow icon

    Вы можете скачать видео на свой смартфон с помощью сайта или pwa-приложения UDL Lite. Также есть возможность отправить ссылку на скачивание через QR-код с помощью расширения UDL Helper.

question iconКак скачать аудиодорожку (музыку) в MP3 "Proximal Policy Optimization (PPO) for LLMs Explained Intuitively"?arrow icon

    Самый удобный способ — воспользоваться программой UDL Client, которая поддерживает конвертацию видео в формат MP3. В некоторых случаях MP3 можно скачать и через расширение UDL Helper.

question iconКак сохранить кадр из видео "Proximal Policy Optimization (PPO) for LLMs Explained Intuitively"?arrow icon

    Эта функция доступна в расширении UDL Helper. Убедитесь, что в настройках отмечен пункт «Отображать кнопку сохранения скриншота из видео». В правом нижнем углу плеера левее иконки «Настройки» должна появиться иконка камеры, по нажатию на которую текущий кадр из видео будет сохранён на ваш компьютер в формате JPEG.

question iconКак воспроизвести и скачать потоковое видео?arrow icon

    Для этого понадобится VLC-плеер, скачать его можно бесплатно с официального сайта https://www.videolan.org/vlc/

    Как воспроизвести потоковое видео через VLC-плеер:

    • в форматах видео наведите курсор мыши на "Потоковое видео**";
    • правым кликом выберите "Копировать ссылку";
    • откройте VLC-плеер;
    • в меню выберите Медиа - Открыть URL - Сеть;
    • в поле ввода вставьте скопированную ссылку;
    • нажмите "Воспроизвести".

    Для скачивания потокового видео через VLC-плеер необходимо его конвертировать:

    • скопируйте адрес видео (URL);
    • в пункте “Медиа” проигрывателя VLC выберите “Открыть URL…” и вставьте ссылку на видео в поле ввода;
    • нажмите на стрелочку на кнопке “Воспроизвести” и в списке выберите пункт “Конвертировать”;
    • в строке “Профиль” выберите “Video - H.264 + MP3 (MP4)”;
    • нажмите кнопку “Обзор”, чтобы выбрать папку для сохранения конвертированного видео и нажмите кнопку “Начать”;
    • скорость конвертации зависит от разрешения и продолжительности видео.

    Внимание: данный способ скачивания больше не работает с большинством видеороликов с YouTube.

question iconСколько это всё стоит?arrow icon

    Нисколько. Наши сервисы абсолютно бесплатны для всех пользователей. Здесь нет PRO подписок, нет ограничений на количество или максимальную длину скачиваемого видео.