联想到了一个深度学习领域几年前出现的理论:彩票猜想 lottery ticket hypothesis。
这个猜想认为一个过量参数的全连接网络里存在一个稀疏的子网络(彩票),单独训练后能够达到完整网络训练后的效果。
这是一个已经在数学上被证明的猜想,甚至被证明了一些更强的版本,比如随即初始化网络可以纯靠剪枝无需训练也能达到和完整训练同样甚至更好的效果。
我非常喜欢这个理论,私心里一直觉得这比常规的梯度下降方法更有前景,只可惜没有太多关注。现在看来,和人脑发育竟然这么相像,甚至非常适合在论文里讲成仿生的故事呢(笑