钢化玻璃

钢化玻璃

这会加载正在生成的日记文件

  在这个情况下,我们利用 V 和 M 模子作为模子预测节制(MPC),并在现实情况中锻炼节制器 C,而不是在生成情况里锻炼。 因而,你需要运转 gce_train.bash,而不是运转 train.py。由于我们在现实情况中锻炼,与 DoomRNN 比拟,锻炼速度较慢。因为是在 tmux 会话中运转锻炼,你能够通过在另一个 tmux 会话中并交运转 Jupyter 来利用 plot_training_progress.ipynb notebook 监控进度,这会加载正在生成的日记文件。

  你能够按左、下或右在这个情况中玩游戏。要可视化在实在情况中运转的预锻炼模子,请运转:

  在这个情况下,每次运转城市生成一个新的随机轨迹。虽然若是我很是细心地开车,能够轻松获得 800 分以上的分数,但 900 分以上就很难。斯坦福大学有些学生也发觉难以持续高于 900 分。处理这一情况的要求是在 100 个持续的随机路径上平均获得 900 分。

  此刻,在 64-core CPU 实例上,运转基于 CMA-ES 的锻炼,在 doomrnn 目次中启动 python train.py 号令。这将启动 trainer 并继续锻炼,直到 Ctrl-C 这个工作。节制器 C 将在 M 的生成情况中以 1.25 的 temperature 进行锻炼。你能够通过加载正在生成的日记文件的 plot_training_progress.ipynb notebook 来监督进度。颠末 200 次迭代(或大约 4-5 小时)后,该当足以获得可观的成果,就能够遏制了。我在接近 1800 次迭代后遏制,虽然它在 200 次之后就没有真正添加价值了,所以能够不消华侈钱。将 log / *. json 中的所有文件添加到曾经 fork 的 repo 中,然后封闭实例。

  在 150-200 generations(或大约 3 天)之后,该当足以达到~880 的平均分数,很是接近想要的 900 分。若是你对 850 + 分就对劲了,建议这时就能够停下来。定性地说,与最终 agent 达到 900 + 分比拟,850-870 的分数并没有很蹩脚,我不想在云上华侈血汗钱。获得 900 + 分可能需要数周。最终模子以 log / *. json 格局保留,你能够按凡是的体例进行测试和查看。

  利用你的桌面实例,并再次 pull 曾经 fork 的 repo,此刻能够运转以下代码来测试新锻炼的 V,M 和 C 模子。

  有良多很酷的设法能够测验考试,例如,利高娱乐迭代锻炼方式,迁徙进修,intrinsic motivation,以及其他情况。

  要在利用 M 生成的情况中运转预锻炼好的节制器,并利用 V 进行可视化:

  若是你想扩展代码并测验考试新的工具,我建议点窜代码并测验考试处理特定的新情况,而不是测验考试改良代码以同时在多个情况中工作。我发觉对于研究工作,若是要测验考试处理坚苦的情况,凡是需要特定的自定义点窜。接待提交带有独立子目次的 pull request,子目次能够针对你测验考试处理的特定情况量身定制,并在子目次的 README.md 文件中申明。

  请留意,除了重构帧和游戏的现实帧之外,还会点窜情况以显示裁剪后的 64 x 64 px 的帧。要在现实情况中运转模子 100 次并计较平均分数,请运转:

  该号令将在 100 次试验后输出每 100 次试验的分数,它也会输出平均分和尺度差。平均分数该当在 900 以上。

  “世界模子”(World Models)是谷歌大脑研究科学家 David Ha 和 Swiss AI Lab 担任人 Jürgen Schmidhuber 配合提出的一个为强化进修情况建立的神经收集模子。“世界模子”论文一经发布就激发了强烈热闹会商。近日,论文作者之一的 David Ha 发布了重现世界模子尝试的一种方式,本文带来分步解读。

  近日,论文作者之一的 David Ha 发布了重现世界模子尝试的一种方式,本文带来分步解读。GitHub 上的参考 TensorFlow 模子:

  我们先会商 VizDoom 尝试,由于这个尝试从头起头实现需要的计较较少。 因为你可能会更新 repo 中的模子,因而我建议 fork 这个 repo 并在你的 fork 中 clone/update。我建议在 tmux 会话中运转任何号令,以便封闭 ssh 毗连时功课仍将在后台运转。

  你只需要将 repo 克隆到以 CPU 模式运转的台式电脑上,利用 repo 中供给的预锻炼好的模子来重现成果。不需要 Clould VM 或 GPU。

  “世界模子”(World Models)是谷歌大脑研究科学家 David Ha 和 Swiss AI Lab 担任人 Jürgen Schmidhuber 配合提出的一个为强化进修情况建立的神经收集模子。世界模子能够通过无监视的体例快速锻炼,让人工智能在 “黑甜乡” 中对外部情况的将来形态进行预测,大幅提高了完成使命的效率。这篇论文一经发布就激发了强烈热闹会商。

  CarRacing-v0 的过程与前面的 VizDoom 示例几乎不异,因而本节次要会商有差别的处所。

  你该当在 100 次随机 episodes 中获得跨越 900 时间步的平均分数。若是你想要获取 agent 在生成情况中玩游戏的统计消息,则能够利用 doomrnn 取代 doomreal,上面这两行代码仍然工作。若是你想更改生成情况的温度,请点窜 doomrnn.py 中的常量 TEMPERATURE,当前的设置是 1.25。

  若是你利用的是 MacBook Pro,我建议将分辩率设置为 “更多空间”,由于 CarRacing-v0 情况呈现的分辩率较高,而且不合适默认的屏幕设置。

  在号令行中,进入 carracing 子目次。测验考试本人玩游戏,在终端中运转 python env.py。你能够利用键盘上的四个箭头键来节制汽车。按(上,下)进行加快 / 制动,(左 / 右)进行转向。

  已有其他人独立实现了世界模子。Keras 有一个实现再现了 CarRacing-v0 尝试的一部门。PyTorch 也有一个项目,试图在 OpenAI Retro Sonic 情况中实现此模子。

  在 record 子目次中建立 .npz 文件之后,我建立了一个具有~200GB 存储空间和 220GB RAM 的 P100 GPU 实例,并在此中克隆了该 repo。我利用 ssh copy 号令 scp 将 CPU 实例中的所有 .npz 文件复制到 GPU 实例的统一个 record 子目次中。若是 scp 不起感化,你能够利用 gcloud 东西。若是两个实例在统一个区域中,这该当会很是快,不到一分钟。将. npz 文件复制到 GPU 机械后,请封闭 CPU 实例。

  2)接下来,它将通过启动:python series.py,利用预锻炼的 VAE 预处置收集的数据。一个新的数据集将在一个名为 series 的子目次中建立。

  关于世界模子,我们曾经在原始的交互式的论文中作了充实的会商,在此不再细致解读论文。

  在无衬着模式下运转预锻炼的模子 100 次(在无衬着模式下,因为需要利用 OpenGL 为该情况提取像素消息作为观测值,因而仍然会在屏幕上衬着出更简单的工具):