返回

西游科技

首页
关灯
护眼
字体:
第二百零六章 玄清杯
   存书签 书架管理 返回目录
当牺牲走棋质量的条件下,速度要比策略网络快1000倍。
    络(vaerk),给定当前局面,估计是白胜概率大还是黑胜概率大。
    四、蒙特卡洛树搜索(reesearch),把以上这三个部分连起来,形成一个完整的系统。
    阿尔法围棋(alhago)此前的版本,结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。
    alhagozero的能力则在这个基础上有了质的提升。最大的区别是,它不再需要人类数据。
    也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。
    alhagozero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。
    随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,阿尔法围棋团队发现,alhagozero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。
    也就是说糖糖要挑战的是最终最强的阿尔法狗。但有个优势就是,最强版本的阿尔法狗其实也是一种自我学习状态。但作为真正的人工智能,糖糖是站在一个全新的高度来俯视的。
    唐玄生想了想,毕竟也是一亿的赌局,索性让糖糖去香江和孙小圣一起进行封闭训练。也让孙小圣学习一下围棋,

第二百零六章 玄清杯(5/8)
上一页 目录 下一页