Robotics' End Game: Nvidia's Jim Fan

Jim Fan, who leads the embodied autonomous research group at Nvidia, returns to AI Ascent to argue that robotics is entering its end game — and that the playbook is already written. He walks through what he calls "the great parallel": robotics following the...

Featured in

AI Ascent 2026

@nicholas

Published: Published Apr 30, 2026
Uploaded: Uploaded Jun 11, 2026
File type: YouTube
Queried: 00
Source: youtu.be

Full transcript

Showing the full transcript for this video.

AI-generated transcript with timestamped sections.

0:00-1:34

[00:00] Продолжение следует... [00:02] И в первую очередь, я рада к вам приветствовать, Джим Фан. Джим leads the Embodied Autonomous Research Group at NVIDIA, otherwise known as NVIDIA Robotics. Я думаю, что роботов, которые просто самые интересные вещи, что происходит в том, что происходит. А маш, basically, есть большая робота, но я рад что роботов, которые могут быть и лисплить, и лисплить, и лисплить, и лисплить. И Джим был, что есть, что застанет, и мы рады, что вы с вами. Спасибо, everyone. [00:32] Продолжение следует... [00:32] Actually, right in this office that we're sitting in, [00:36] There's a guy [00:38] в шаре, в шаре, в больших бицепах, в больших металях. [00:43] И все это... [00:45] В этом случае мы видим, что это не так. [00:46] Он пишет: [00:47] Илон и команда OpenAI. [00:49] Для будущего компьютера и человечества, я представлю вас, первый первый ДГКС-1. [00:54] Это был первый раз я встретил Дженсен. [00:57] И, как и хорошая интернат будет делать, [01:00] Я не могу сказать, что я не могу сказать, что я не могу сказать, что я не могу сказать. [01:04] И вот здесь. И можно вы spotете еще? [01:08] Это Андрей, там. Андрей, мы идем к компьютерной музею. Я чувствую себя как динозавр. [01:16] Вы знаете, back then, I had... [01:18] No clue what I was signing up for. [01:21] И затем... [01:22] Никто не может описать что произошло next. [01:24] Без Илья. [01:26] Если вы верите в deep learning, deep learning верит в вас. И, ой, что deep learning верит в нас большинство.

1:34-3:04

[01:34] Спасибо. [01:36] Три-step функции. [01:37] 6 лет. [01:39] That's how all it took. [01:40] чтобы привозить нас сегодня. [01:42] Первый тик, GPT-3. [01:44] Претраивание! [01:46] Следующая предпредитация [01:47] Это действительно обучение грамм. [01:50] The shape of language is about simulating [01:53] как думать, и код, и стремь, в общем, должны быть. [01:57] 2022, instruct GPT. [02:00] чтобы позволить обеспечить структуру, позволяющую структуру для использования. [02:05] О-1, reasoning. [02:12] Акцелерателем целую лупу. [02:14] beyond what's humanly possible. [02:16] Так что Андрей сказал... [02:18] Все лапы начинают на последний бой. [02:22] София ОЛМС. [02:24] Они в текущей серии. [02:26] И, honestly, я очень рад. [02:29] Смотрите как happy Андрей был. Смирный смех на его face. Де ЛМ фолкс? [02:35] у нас есть партия в жизни. Они спид-русбирные АГИ. [02:39] на мистику кратерии, которые называют мистолы. [02:43] So why can't robotics get a piece of fun? [02:46] Как ни self-respecting scientist would do, я копирую homework и даю новую название. Я называю это «Греть Parallel». [02:56] So instead of simulating strings, [02:58] Can we simulate next physical world state? [03:02] И тогда мы можем подключить через активно-фильтюнг

3:04-4:35

[03:04] onto a thin slice of that simulation that matters for real robots. [03:09] И мы давайте реинформировать ладь. [03:12] carry the last mile. [03:14] И это все. [03:16] Продолжение следует... [03:18] Если вы не можете быть их, то имя их. [03:20] Поэтому, пожалуйста, join me в новом эпизоде. [03:23] Robotics, the end game. And sorry, I just couldn't resist. Not a banana's too good. [03:28] Спасибо, Дамис. [03:31] Как играть в конце концов? [03:33] Это зависит от двух вещей: модель стратегии, [03:35] и дата стратегия. [03:37] Let's look at the model first. [03:39] Продолжение следует... [03:41] Мы доминили ВОА, или ВИЗНО ЛАГАЧНОМОДЕЛЬСЯ, и моделям ПАЙ и ГРУТ в этом категоре. [03:48] Таким образом, [03:50] Претраиндерсовка будет сделан из ВОМ. [03:52] And we simply graph an action head on top of it. [03:56] Но если вы думаете о этих моделях, они лвейные. [03:59] Потому что в большинстве параметра [04:01] Дедикатия к языке. С языком языке, как язык, [04:06] followed by vision and action. [04:08] И по-design, ВОА есть много в экологии и нанес, но не так много в физике и вверх. [04:14] Это как-то [04:16] В этом месте. [04:18] Это мой любимый пример. [04:20] from the original VOA paper. Move the Coke hand to a picture of Taylor Swift. Yes, it has not seen Taylor Swift before. Yes, it's able to generalize. But this is not quite the pre-training ability that we're looking for. [04:32] Итак, что второе парадокс?

4:35-6:06

[04:35] И я всегда думал, [04:37] что это будет что-то благословительное. [04:39] Слышно. [04:40] It turns out that this is AI video slop that we call it. [04:44] Я могу смотреть эти мальчики на банке на security cam все-таки. Это пик интернет. Но, реально, look at this. Ни-то может взять это серьезно. [04:55] until we realize that [04:58] что эти видео модели научились умирать на стадии внешнего стадия. [05:02] So these are some rules from VO3. [05:05] Вы можете увидеть, что модели, они взяты гравитой, гранатой, логичной, рефлекционной, все же, [05:13] Нон of this is coded in. [05:15] Physics emerged by predicting the next blob of pixels at scale. [05:20] И даже визуал планирование появляется. [05:23] Look at how VO solves [05:25] Меса. [05:27] Это сложно. [05:28] By running simulation forward in pixel space. [05:31] И, внимание, на левую сторону, это мой любимый пример. Давайте смотреть. И вы блин, если вы не мис. [05:38] как ВО3 решает это. [05:40] Это очень смертная. Высокий, вы знаете, что если вы не смотрели, то есть оптичный. Я называю это физик-слоп. [05:51] Как мы сделаем эти модели полезными? [05:56] Ну... [05:57] Мы делаем акцион-финетюнение. [05:59] Мы льем. [06:00] This superposition of all possible future states and collapse that [06:05] Смотрите.

6:07-7:39

[06:07] That matters for real robots. [06:09] Introducing Dream Zero. [06:11] Это новый тип о политике модель. [06:14] что мечтает несколько секунд в будущем. [06:16] и действует соответствует [06:19] И вы знаете, что в моторе активности, они высокий дименовательный сигналы. [06:24] Это выглядит как пиксель. [06:26] мы можем рендерировать это в то же время как мы рендерли видео. Дрин-зеро-зеро-зеро-зоинтельно декодает [06:33] следующие действия и следующие действия. [06:35] И, в результате, он смог бы зерошить [06:38] Слово тасс. [06:39] и вверх, что он не видел в тренинге. [06:43] И как робот-экспертирует, мы можем видеть, что это дремяется. [06:47] И корреляция очень тая. Если видео предпределение работает, то действие работает. [06:51] Если видео халлюцинает, то ошибка. [06:55] So once again, vision and action are now first-class citizens. [06:59] И мы с вами много веселым, что мы просто поднимаем роботом в нашу лаб, и затем поднимаем разные вещи в комплекс. [07:07] И, конечно, Дрим Зеро не будет [07:10] все эти задачи. [07:12] 100% robust, but it's kind of like GPT-2. [07:15] Это пытается сделать форму правильного движения в каждом случае. [07:19] So Dream Zero is our first step towards open-ended, open vocabulary prompting. [07:25] Продолжение следует... [07:26] И мы называем этот новый тип модел, World Action Models, или ВАМ. [07:31] Субтитры создавал DimaTorzok

7:40-9:17

[07:40] Long live world action models. [07:43] Следующая стратегия. [07:46] Это НVIDIA's chief scientist, Bill Daly, [08:01] Продолжение следует... [08:02] Продолжение следует... [08:04] Телеферация. [08:05] Это «голден эрак». [08:07] VR has that... [08:09] очень оптимизированная [08:11] для системы, и эти комплексы, которые выглядят как медиевая устройства, [08:17] и много инвестирования в индустрии, и много пень и суверения, [08:21] И yet, для Тали-ОП, это по 24 часа по роботам, по день. [08:26] Физикал-физикал-лимит [08:28] И вообще, кто-то, кто-то, кто-то? Это более 3 часа, когда робот-год-год-год-год-год-год-год-год-год. [08:34] Потому что они делают тентеринги все время. [08:37] Так как мы можем сделать лучше? [08:39] Ну, как это? [08:41] Вы просто носите робот на своем руке. [08:44] Это называется УМИ, или Universal Manipulation Интерфейс, и это десертно-симплее. [08:51] Вы wear the robot actuator на руке и directly collect the data as humans, while getting the rest of the robot body out of the loop. [09:00] Но я бы сказал, УМИ, может быть, один из самых лучших письменов, который был в роботике, [09:06] и это спаунд два уникорен стартапа. [09:09] На лево-минейке, у нас есть гераллесс, improving this design, so you can wear the gripper here. И на лево-минейке, Сундея, made these three-фингер датаглопс.

9:18-10:49

[09:18] В этом году мы взялись еще один степень [09:21] Мы создали этот эксоскелетон, который имеет один-то-другой маппинг, с 5-финкерой декоративной рукой, и мы называем ДексУМИ. [09:28] Давайте посмотрим на это в action. [09:31] На лево. [09:32] The human directly collecting data always the fastest. On the right, look at how difficult teleop is. [09:38] The human operator, here one of our most skilled PhDs, he has to align very carefully, and then it's super slow. Also, the success rate is very low as well. [09:49] И в центре, вы просто берете эти экзоскелетоны, и вы получаете информацию. [09:55] И мы пытаемся работать на робот-полицейском данном. [09:58] Вот здесь вы видите, что это полностью автономное [10:01] Роллотов, а в полиции, что с тренировали 0-калипсисиопережные данные. [10:06] So we're able to break the curse of 24 hours per robot per day and see how happy these robots are because they no longer need to be in the loop for data collection. [10:15] Спасибо. [10:16] Так что это ответственность? [10:18] Have we solved scaling for robotics? [10:21] Anyone driving Tesla or Waymo here? Anyone? [10:25] Когда вы двигаетесь, [10:27] Вы вообще вывели [10:29] в том, что это большая [10:30] Physical data flywheel. [10:33] И вот, что вы не чувствуете, когда фсд. Потому что данный дата оплод – это анбитный процесс. [10:40] Yet wearing these UMI or data wearables, it's still cumbersome, right? It's intrusive. [10:44] Это не так же как просто двигаться на работу. [10:47] Так что мы должны...

10:49-12:22

[10:49] ФСД-эквивалент [10:53] Дата коллекция должна выйти из-за, выйти из-за, в сфере, в сфере, чтобы мы можем capturar полная декларация человеческой в мире, [11:02] в том, что все работы экономические ценности. [11:06] Так что мы идем ой-инь. [11:07] на человеческом видеоконтрирующих, которые входит с деталями аннотации, как «посетия» [11:14] и детьми аннотажа. [11:17] Продолжение следует... [11:18] Беголске. [11:19] 99.9% of the training that goes into this is based on human egocentric videos. [11:26] И результатом, это анкрофессия, [11:29] Это направлено от камера пикселей. [11:31] 22 degrees of freedom high-dexparity robot hands. [11:35] Что вы видите здесь, это полностью авторомозно. [11:39] Мы претраиваем его scale. [11:41] 21 к hours of in the wild egocentric human data. [11:46] с zero robot data whatsoever. [11:49] И в предприятии мы предоставляем эти пальцы и расположения. [11:53] В общем, в общем, мы только 50 часов собираем [11:57] высоко-процессионные датографы и 4-часа талия. [12:01] 4 часа талия [12:04] less than 0.1% of our training mix. [12:08] Спасибо. [12:09] И с этим, Eagle Scale способен генерал-лиза к этому очень дешевым задачам, как сортивная карта, [12:15] или в стирене [12:17] Right? Over. [12:19] Трансферинг в ликвид, что someday мы может быть робот-нурсистой дома.

12:22-13:55

[12:22] might as well try this [12:25] И для этих задач, [12:26] It takes only one shot demonstration at test time to learn different shared folding strategies. [12:33] и, возможно, самое интересное из этого письма, мы обнаружили [12:38] Это право наиболее. [12:40] Продолжение следует... [12:42] Это очень чистая связь между тем, как мы проводим претраиндинг и оптимой локации. [12:49] В результате, это очень удобно. [12:50] Лог-Linair-Mathematico Equation. [12:53] Субтитры создавал DimaTorzok [12:58] Если мы поставим все эти стратегии на эту картину, [13:02] X axis is alignment to the robot hardware, Y axis is scalability, [13:07] Это как выглядит. [13:08] Тайли Алп. [13:09] Смотрите, [13:10] Далее, вы можете перейти на миллион тысяч часов. И в игру центра видео, если мы сможем спин, фсд флийвы. [13:18] Единственное время, 10 миллионов в следующем году. [13:22] И если мы выделим здесь, все на левую линку здесь есть новый парадигм. [13:27] Сенсоризм human data. [13:29] So let me make a few predictions. [13:31] В следующем году, [13:33] с Телиопом и с дробейом, почти на легкий уровень. [13:37] И затем будет объемом данных с датами. [13:41] Custom designed for different hardware and use cases. And finally, the main diet for robotics will be egocentric videos. [13:49] Так, что, момента с silence для наш любимый Талиов. Вы у нас хорошо, в порядке.

13:55-15:26

[13:55] Лонг-лево-сенсоризм human data. [13:58] Are we done with the data strategy yet? [14:00] Вы заметили, что я поставил два рейса на стратегии дата? [14:04] What's the outer ring here? [14:06] О, дай у меня фонтёр лапс. [14:09] У нас уже обучают миллионных оборудований кодовым оборудованию. [14:15] Роботики, мы имеем нужный нужный момент для увеличения оборудования. [14:20] И, конечно, вы всегда можете [14:22] Дорога на реалоработка. [14:34] Это довольно непрерывно, чтобы эти роботы assembling GPUs просто по-другому, или, как у вас виноват, сказать, «мога, этот task был улучшен от меня». [14:43] Спасибо. [14:45] Yet, we can't get to 1 million environments, because that will require 1 million robots if you do it the previous way. [14:53] So we need a better way. [14:55] Here, let's say you take... [14:56] и в iPhone. [14:58] И вы можете через 3D World Scan Поплайн, чтобы вытягивать все объекты, и затем [15:05] автоматически synthesize them again [15:07] в классическом физическом simulator. Все эти объекты были интерактивными после сканта. [15:13] И затем вы можете увеличить это инфинитивно в стимуляции. [15:16] с вариацией [15:18] Мы называем «дигитал cousins». [15:21] Так что теперь iPhone, в основном, [15:24] Покет ВОЛД сканер

15:26-16:57

[15:26] в процессе мы называем РИЛ-СИМ-ТО-РИЛ. [15:29] И в этом случае мы имеем в виду скалабельную способность, чтобы подать физическое миро в мире. [15:35] But still this method relies on a classical [15:38] граф extension. [15:39] Can we do better? [15:41] Продолжение следует... [15:42] Dream Dojo. [15:43] Это как мы спиня на видео-world модель. [15:46] и превращая их в структуре нейросимулатуры. [15:50] DreamDojo takes as input these continuous action signals and outputs the next RGB frames as well as sensor states in real time. [16:00] Не один пиксель вы видите здесь, что реально. [16:03] Дриндодо способствует и научить механические роботы. [16:07] Through a purely data-driven approach. There is no physics equation, no graphics engine involved in this process. [16:16] So the new post-training paradigm for robotics is a massively parallel RO system [16:21] that runs on a few real robot stations [16:25] Бунчащие график коррес, ранировал сканс, и хави-инферанс компьютер. [16:29] Работа в мире. [16:32] Или, как эта экология говорит, комплект now equals environment, now equals data. [16:38] Или, как у висематора, [16:40] The more you buy, the more you save. And this message has been approved by my boss. [16:46] Продолжение следует... [16:47] So that's it. [16:48] Возвращение. [16:49] The Great Parallel. [16:51] что роботов будут следовать. И это происходит, как мы говорим. [16:54] И мы смотрим на начальник и endgame.

16:59-18:32

[16:59] Вы знаете, что вы играете? [17:00] "Видеогеймс" "Сивилизация" [17:03] Это еще мой любимый. [17:05] Я люблю думать о моих исследованиях. [17:07] как улучшить гейм-профессию на цивилизационных [17:10] Технологичный. [17:12] И есть три еще достижения для улучшения роботики, и затем мы закончим. [17:17] Я могу отстать, и я могу ждать. [17:20] Первый [17:22] Парсинка физического теста. [17:24] Across a wide range of activities, you cannot tell the difference between a human doing a task [17:32] или роботом. Может быть не пустые люди, но... Физик Туринг тестов оба унитета энергии и унитета работа. [17:43] И просто отражаясь на сексу, что это робот, я думаю, что работа была сделана для нас. [17:47] Может быть, это 2-3 года назад. [17:51] И next, physical API. [17:53] Вы уходите в целом, у вас есть целая флитов, [17:55] И они могут быть configurados, как ни другая, с помощью API и команд-лайн-лайн-лайн-класс, и они могут быть в порядке с опус-9.0. [18:04] И если мы имеем в данном физическом API, [18:06] will be able to realize light-out factories. [18:09] Those are essentially printers of atoms. [18:11] Они берут их в input. [18:13] Делаем в маркдонах файл, и в отоплотном продукте, полностью автономно. [18:19] или эти лапы [18:21] которые автоматизируют исследования в химическом химическом [18:25] Biology and Medicine. [18:28] И последнее, физическое autoresearch. Когда роботов

18:32-19:53

[18:32] начали строить, строить и строить следующую игру себя, куда более что было humanly возможно. [18:40] Вы можете спросить, [18:41] Это не science fiction? [18:43] Мы будем это видеть в нашей жизни? [18:46] Ну, [18:48] Это было бы на ай-коммуните [18:50] 14 лет. [18:51] Продолжение следует... [18:55] Модельно неизвестен как кот против дож. [18:58] В Айя Ассенте сегодня, 2026, [19:01] Мы говорим о авиактивной исследовании. [19:03] Продолжение следует... [19:04] И давайте добавляем еще 14 лет. Как бы это? [19:08] 2026 is right in the middle of 2012 and 2040. [19:14] И технология не развивается linearly, она развивается exponentially. [19:18] So I can say [19:21] с 95% certainty [19:23] что мы сможем до конца конца. [19:25] Продолжение следует... [19:28] В 2040. [19:30] И мы все еще будем. [19:34] Если вы верите в роботики, [19:35] Robotics will believe in you. [19:38] И для всех нас здесь [19:40] Сиденько. [19:41] Я думаю, что наш родственник [19:43] Мы родим слишком поздно, чтобы оборудовать Землю, и слишком поздно, чтобы оборудовать старые. Но мы родим только в время. [19:50] Субтитры создавал DimaTorzok [19:53] Спасибо.

Want to learn more?

Ask about this video