%3Aformat(webp)%2Fi.ytimg.com%252Fvi_webp%252F8jtAzxUwDj0%252Fmaxresdefault.webp&w=1139&q=75)
Сипаттама:
In this video, I break down Proximal Policy Optimization (PPO) from first principles, without assuming prior knowledge of Reinforcement Learning. By the end, you’ll understand the core RL building blocks that led to PPO, including: 🔵 Policy Gradient 🔵 Actor-Critic Models 🔵 The Value Function 🔵 The Generalized Advantage Estimate In the LLM world, PPO was used to train reasoning models like OpenAI's o1/o3, and presumably Claude 3.7, Grok 3, etc. It’s the backbone of Reinforcement Learning with Human Feedback (RLHF) -- which helps align AI models with human preferences and Reinforcement Learning with Verifiable Rewards (RLVR), which gives LLMs reasoning abilities. Papers: - PPO paper: https://arxiv.org/pdf/1707.06347 - GAE paper: https://arxiv.org/pdf/1506.02438 - TRPO paper: https://arxiv.org/pdf/1502.05477 Well-written blogposts: - https://danieltakeshi.github.io/2017/04/02/notes-on-the-generalized-advantage-estimation-paper/ - https://huggingface.co/blog/NormalUhr/rlhf-pipeline - https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/ Implementations: - (Original) OpenAI Baseslines: https://github.com/openai/baselines/blob/ea25b9e8b234e6ee1bca43083f8f3cf974143998/baselines/ppo2 - Hugging Face: https://github.com/huggingface/trl/blob/main/trl/trainer/ppo_trainer.py - Hugging Face docs: https://huggingface.co/docs/trl/main/en/ppo_trainer Mother of all RL books (Barto & Sutton): http://incompleteideas.net/book/RLbook2020.pdf 00:00 Intro 01:21 RL for LLMs 05:53 Policy Gradient 09:23 The Value Function 12:14 Generalized Advantage Estimate 17:17 End-to-end Training Algorithm 18:23 Importance Sampling 20:02 PPO Clipping 21:36 Outro Special thanks to Anish Tondwalkar for discussing some of these concepts with me. Note: At 21:10, A_t should have been inside the min. Thanks @t.w.7065 for catching this.
Медиафайл пішімдерде қолжетімді
http://univideos.ru/ бағдарламалар мен кеңейтімдерді орнатусыз орындағыңыз келсе, бейнені немесе бөлек аудио тректі жүктеп алудың ең жақсы жолы.
UDL Helper кеңейтімі - мазмұнды жылдам жүктеп алу үшін YouTube, Instagram және OK.ru сайттарына үздіксіз біріктірілген ыңғайлы түйме.
UDL Client (Windows үшін) 900-ден астам сайттарды, әлеуметтік желілерді және бейнехостингті, сондай-ақ көзде қолжетімді кез келген бейне сапасын қолдайтын ең қуатты шешім болып табылады.
UDL Lite - мобильді құрылғыдан сайтқа ыңғайлы қол жеткізуді қамтамасыз етеді. Оның көмегімен сіз бейнелерді тікелей смартфонға оңай жүктей аласыз.
Ең жақсы сапа пішімдері - FullHD (1080p), 2K (1440p), 4K (2160p) және 8K (4320p). Экранның ажыратымдылығы неғұрлым жоғары болса, бейне сапасы соғұрлым жоғары болуы керек. Дегенмен, басқа факторларды ескеру қажет: жүктеу жылдамдығы, бос орын көлемі және ойнату кезінде құрылғының өнімділігі.
Браузер/компьютер толығымен қатып қалмауы керек! Бұл орын алса, бейнеге сілтеме арқылы хабарлаңыз. Кейде бейнелерді тиісті форматта тікелей жүктеп алу мүмкін емес, сондықтан біз файлды қажетті пішімге түрлендіру мүмкіндігін қостық. Кейбір жағдайларда бұл процесс компьютерлік ресурстарды белсенді пайдалана алады.
Бейнені смартфонға UDL Lite веб-сайты немесе pwa қолданбасы арқылы жүктеп алуға болады. UDL Helper кеңейтімін пайдаланып QR коды арқылы жүктеу сілтемесін жіберуге де болады.
Ең қолайлы әдіс - бейнелерді MP3 пішіміне түрлендіруді қолдайтын UDL Client бағдарламасын пайдалану. Кейбір жағдайларда MP3 файлын UDL Helper кеңейтімі арқылы да жүктеп алуға болады.
Бұл мүмкіндік UDL Helper кеңейтімінде қол жетімді. Параметрлерде «Бейнеден скриншотты сақтау үшін түймені көрсету» құсбелгісінің қойылғанына көз жеткізіңіз. Камера белгішесі ойнатқыштың төменгі оң жақ бұрышында «Параметрлер» белгішесінің сол жағында пайда болуы керек, оны басу ағымдағы кадрды бейнеден компьютерге JPEG пішімінде сақтайды.
Бұл үшін сізге https://www.videolan.org/vlc/ ресми веб-сайтынан тегін жүктеп алуға болатын VLC-ойнатқышы қажет.
VLC ойнатқышы арқылы ағынды бейнені қалай ойнатуға болады:
VLC ойнатқышы арқылы ағынды бейнені жүктеп алу үшін оны түрлендіру қажет:
Ескерту: бұл жүктеп алу әдісі бұдан былай YouTube бейнелерінің көпшілігінде жұмыс істемейді.
Ештене етпейді. Біздің қызметтеріміз барлық пайдаланушылар үшін мүлдем тегін. PRO жазылымдары жоқ, жүктелген бейнелердің санына немесе максималды ұзақтығына шектеулер жоқ.