- Jojo's NewsLetter
- Posts
- 🚀Google Gemini 1.5发布,虽然没有水花但功能强大。👥是什么样的团队打造了 Sora?负责人刚刚毕业,最小成员00后
🚀Google Gemini 1.5发布,虽然没有水花但功能强大。👥是什么样的团队打造了 Sora?负责人刚刚毕业,最小成员00后
🔊亚马逊开发出有史以来最大的文本转语音模型
2024/02/18 Sunday
初九快乐
🚀 Google Gemini 1.5发布,虽然没有水花但功能强大
👥是什么样的团队打造了 Sora?负责人刚刚毕业,最小成员00后
🔊亚马逊开发出有史以来最大的文本转语音模型
在大家的目光都被 Sora 吸引的同时,谷歌也发布了 Google Gemini 1.5。但就好像每次汪峰想开演唱会总被其他新闻抢头条一样,Gemini 1.5 这次也没有抢到多少版面。不过玩笑归玩笑,这次 Gemini 1.5 的更新可一点没含糊;它在跨模态超长文本理解能力上的大幅突破。Gemini 1.5 能够稳定处理的信息量高达 100 万个 tokens。相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词。而之前保持记录的 Claude 2.1 则是 20 万 tokens,Gemini 1.5 这次直接将这个数字翻了 5 倍,在窗口长、度上成功碾压了市面上所有大模型。
这还不是谷歌的极限,他们已经成功测试了高达 1000 万 tokens,相当于一次将整个《指环王》三部曲放进去。除了 100 万个 tokens 外,它还有更高效的 MoE 架构。和 Transformer 相比,MoE 的响应更快、质量更高,能大大提升模型的效率和准确性。不仅更适应处理大规模数据集的复杂任务,还有更强的可扩展性和灵活性。
Gemini 1.5 另一个值得关注的功能是,它可以对上传内容进行无缝分析、分类和总结大量内容。例如,当给出阿波罗 11 号登月任务的 402 页记录时,它可以推理整个文档中的对话、事件和细节。而在超长视频理解上 Gemini 1.5 也同样毫不拉跨, 它甚至能读取一部上世纪 44 分钟的无声电影,并准确回答类似 “纸张从口袋取出的时间“ 这样精准的细节。
而在读取代码上 Gemini 1.5 也很强大,它能深入分析整个代码库。例如投喂给它一个 81.6 万 tokens、超过 10 万行代码的提示时,它可以根据问题迅速找到特定 demo 的代码,还能提出有用的修改建议并进行解释。
最后也是最亮眼的功能是 in-context learning。在研究人员测试一个不到 200 人使用的小众语言“Kalamang”时,Gemini 1.5 可以自我学习,并且能够执行从英语到 Kalamang 的翻译任务。
Sora 团队已经成为世界上最受关注的技术团队,团队成员的 X 也成了 AI 爱好者的“打卡地”。和团队的名气相比,他们的年龄出人意料的年轻。两位负责人在 2023 年刚刚博士毕业,团队最小成员是 00 后……
团队负责人 Tim Brooks,是 DALL-E 3 作者之一,本科就读于卡内基梅隆大学,去年 1 月刚从加州大学伯克利分校博士毕业,也是 DALL-E 3 的作者,在英伟达实习时,就是视频生成研究的项目负责人。除了科研背景外,他还给国家地理杂志供稿,在百老汇演出,只能说天才就是天才,在哪个领域都能发光发热。
另一位负责人 William Peebles 则搞出了 Sora 的技术基础之一 DiT(扩散 Transformer)。论文还曾入围 CVPR 2022 最佳论文候选。本科就读于 MIT,主修计算机科学,参加了 GAN 和 text2video 的研究,还在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。
Sora 团队的另一位负责人 Aditya 是 DALL-E 的创造者,主导了三代 DALL-E 的研究,和辉煌的成果相比,这位大佬却只有本科学历。读于纽约大学,但期间已经在研究生成式模型,并和 LeCun 共同发表论文。
团队最年轻的 00 后 Will DePue, 2022 年才从密西根大学计算机系本科毕业。但他在大四创业,创办了市场咨询公司 DeepResearch,后被 Commsor 收购。
除了以上成员外,Sora 团队还包含多位华人成员,例如本科毕业于北京大学物理系,就获得 MIT 物理学博士学位的 Li Jing。他曾在 Meta 做了 2 年多博士后,于 2022 年加入 OpenAI。
碍于篇幅的关系,剩下的团队成员就不一一介绍了,总之看完他们的简历后,只能感慨一声长江后浪推前浪。
除了 Sora 和 Gemini 1.5 外,亚马逊的人工智能研究团队近日宣布了一项重大突破:他们成功开发出了一款据称是有史以来最大的文本转语音模型,名为“可扩展流式文本转语音模型”(BASE TTS)。这个模型拥有惊人的 9.8 亿个参数,并利用超过 10 万小时的录音数据进行了训练,其中包括大量英语语音。研究人员还向模型提供了其他语言的单词和短语示例,以确保其正确发音,比如“au contraire” 和 “adios, amigo”。
通过对模型使用不同规模的数据集进行测试,研究人员发现当参数量达到 1.5 亿时,模型展现出了“涌现能力”,即突破到更高智能水平的现象。这种能力表现在多个语言属性上,包括使用复合名词、表达情感、使用外语词等。这一发现对于文本转语音技术的进步具有重要意义。
然而,鉴于潜在的滥用风险,研究团队决定不向公众开放该模型,而是将其作为学习应用,并希望利用所学知识来改善文本转语音应用的整体音质。这项研究的结果已经在 arXiv 预印本服务器上发表,详细描述了模型的开发和训练过程。