重塑千禧年代 第1471节(第3 / 5页)
“而且,自注意力模型必然因为序列中每对元素计算的注意力权重而有巨大的参数量,这极可能导致过拟合。”
他这边刚说话,谷歌自家DL的席尔瓦也反驳了乌思克尔特提出的新路线,其中一个重要原因在于RNN的循环结构太符合大家对序列数据处理的理解,即当前状态依赖于过去的信息,而自注意力的全局依赖一看就不如RNN直观。
易科与谷歌的两大领导者都批评了自注意力Self-attention,但乌思克尔特并不服气,他直接登台阐述自己更多的想法。
而且,针对吴恩达与席尔瓦抨击的缺点也给出一些解决思路,比如,引入位置编码,比如,进行多头注意力的研究。
有人觉得眼前一亮,有人觉得异想天开,还有人现场进行快速的分析和演算。
只是,等到第二天,当吴恩达提出团队在研发上的困惑时,激烈的辩论到来了。
易科是有“Siri”这样的语音助手作为人工智能的实践,而吴恩达的团队不仅在做卷积神经网络CNN的研究,也在做循环神经网络RNN的研究,他们认为后者更适合与语音助手相结合,但效果并不算很好,完全达不到想要的成绩。
问题出在哪里?
吴恩达表述了困惑,也谈了谈易科内部的解决方向。
参会的一部分人赞同易科的解题思路,但谷歌方面却出现了不同的声音。
第一排的方卓极其茫然,他扭头询问旁边沉思的英伟达掌门人黄仁勋:“他们在讨论什么?”
“乌思克尔特说,GPU是最适合深度学习技术的硬件。”黄仁勋给出一句总结。
方卓:“???”
他纳闷道:“我怎么完全没听到类似的表述?”
“因为自注意力Self-Attention更加强调并行处理,这是GPU更擅长的。”黄仁勋笑道,“至于其他的,不重要,我们只要提取对我们有利的就好。”
“为什么非要使用循环神经网络?”谷歌的乌思克尔特本来正在休假,但因为对DL的交流感兴趣便报名过来,“为什么不试试自注意力Self-attention?我认为它对NLP领域将会有更优秀的改变。”
“Self-attention可以进行更好的并行计算能力,而不是像RNN那样进行顺序处理,它还能直接比较序列中任意两个位置的向量表示,这样就能更有效的捕捉和利用长距离依赖关系,但RNN不行!”
“RNN虽然理论上也能捕捉长距离依赖,但实际上往往因梯度消失或爆炸问题而难以实现!”
乌思克尔特研究的是谷歌的机器翻译改进方法,他的父亲就是计算语言学的教授,尽管刚开始进入谷歌时对语言翻译的工作很不喜欢,但最终还是专注于这一领域的研究,而他近期正在琢磨的便是“自注意力Self-attention”在相关领域的改善。
吴恩达很快明白这位谷歌研究员的意思,也在几经思索后给予反驳:“自注意力没有显式地编码位置信息,这就意味着如果以它为核心的模型无法区分序列中相同词语在不同位置的意义差异,而在自然语言的处理中,词语的语义又与位置紧密相关。”