我试图找到有关网络体系结构的文献,其输入内容如下:

  • 动作(如“向上”,“下来”,等)
  • 当前状态图像

输出:

  • 下一个状态的图像

我已经有了很多输入的培训数据。然而,我正在为这个问题寻找相关的文献/建筑。

撞到主页上了通过社区盎司 昨天

这个问题的答案可能是好的或坏的;系统已将其标记为活动,以便对其进行查看。

你可能想从在Atari游戏中使用深层网络的动作条件视频预测”(ARXIV链接:网址:https://arxiv.org/abs/1507.08750)不过,那是从2015年开始的,我敢肯定从那以后还有很多其他有趣的发展。不过,这篇论文可能仍然是一个很好的起点,并为您提供正确的术语,以便插入google/google学者,以查找在此基础上构建的最新论文。谷歌学者还提供自动查找引用这篇文章的功能(最近有趣的文章可能会引用这篇文章)。

作为补充,你可能想重新考虑你想要的输出。给定当前状态的图像和操作,训练网络只预测改变在图像中(即,预测新图像-旧图像)而不是预测完整的图像。然后,您仍然可以通过再次将该输出添加到旧图像来手动重建预测的新图像。我很肯定我也在最近的一篇论文中看到过这种情况,但不要完全记住标题/作者。

我在2048年的比赛中也尝试过类似的方法。我把董事会的状态作为X,以及作为Y.我刚刚用这个数据集训练了神经网络。架构就像是一对层雷鲁最后一层软最大值.主要的是我们不应该将数据集中的错误移动反馈给nn,或者神经网络也倾向于学习坏的动作,这反过来又让它变得不那么聪明。

我通过在2048年运行minimax并为每个动作分配奖励来收集数据集,然后消除上面的坏处。

上述过程还取决于您获取特征向量的方式,如果你的特征向量是图像,那么使用CNN是有意义的。

网址:https://github.com/navjindervirdee/2048-deep-reinformation-learning

DQN也是一个不错的选择。但是要检查上面的链接,它也帮助了我。

我的回购:https://github.com/williamscott701/ai-vs-2048

我的成绩其实并不好。

你的答案

点击“发布你的答案”,您确认已阅读我们的更新服务条款,,隐私政策饼干政策,您继续使用本网站必须遵守这些政策。

不是你要找的答案?浏览标记的其他问题必威英雄联盟 必威电竞问你自己的问题.