Jojo's NewsLetter
Posts
🚀Google Gemini 1.5发布,虽然没有水花但功能强大。👥是什么样的团队打造了 Sora?负责人刚刚毕业,最小成员00后

🚀Google Gemini 1.5发布,虽然没有水花但功能强大。👥是什么样的团队打造了 Sora?负责人刚刚毕业,最小成员00后

🔊亚马逊开发出有史以来最大的文本转语音模型

Jojo每日AI新闻资讯
February 18, 2024

2024/02/18 Sunday

初九快乐

🚀 Google Gemini 1.5发布，虽然没有水花但功能强大

👥是什么样的团队打造了 Sora？负责人刚刚毕业，最小成员00后

🔊亚马逊开发出有史以来最大的文本转语音模型

🚀 Google Gemini 1.5发布，虽然没有水花但功能强大

在大家的目光都被 Sora 吸引的同时，谷歌也发布了 Google Gemini 1.5。但就好像每次汪峰想开演唱会总被其他新闻抢头条一样，Gemini 1.5 这次也没有抢到多少版面。不过玩笑归玩笑，这次 Gemini 1.5 的更新可一点没含糊；它在跨模态超长文本理解能力上的大幅突破。Gemini 1.5 能够稳定处理的信息量高达 100 万个 tokens。相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词。而之前保持记录的 Claude 2.1 则是 20 万 tokens，Gemini 1.5 这次直接将这个数字翻了 5 倍，在窗口长、度上成功碾压了市面上所有大模型。

这还不是谷歌的极限，他们已经成功测试了高达 1000 万 tokens，相当于一次将整个《指环王》三部曲放进去。除了 100 万个 tokens 外，它还有更高效的 MoE 架构。和 Transformer 相比，MoE 的响应更快、质量更高，能大大提升模型的效率和准确性。不仅更适应处理大规模数据集的复杂任务，还有更强的可扩展性和灵活性。

Gemini 1.5 另一个值得关注的功能是，它可以对上传内容进行无缝分析、分类和总结大量内容。例如，当给出阿波罗 11 号登月任务的 402 页记录时，它可以推理整个文档中的对话、事件和细节。而在超长视频理解上 Gemini 1.5 也同样毫不拉跨，它甚至能读取一部上世纪 44 分钟的无声电影，并准确回答类似 “纸张从口袋取出的时间“ 这样精准的细节。

而在读取代码上 Gemini 1.5 也很强大，它能深入分析整个代码库。例如投喂给它一个 81.6 万 tokens、超过 10 万行代码的提示时，它可以根据问题迅速找到特定 demo 的代码，还能提出有用的修改建议并进行解释。

最后也是最亮眼的功能是 in-context learning。在研究人员测试一个不到 200 人使用的小众语言“Kalamang”时，Gemini 1.5 可以自我学习，并且能够执行从英语到 Kalamang 的翻译任务。

👥是什么样的团队打造了 Sora？负责人刚刚毕业，最小成员00后

Sora 团队已经成为世界上最受关注的技术团队，团队成员的 X 也成了 AI 爱好者的“打卡地”。和团队的名气相比，他们的年龄出人意料的年轻。两位负责人在 2023 年刚刚博士毕业，团队最小成员是 00 后……

团队负责人 Tim Brooks，是 DALL-E 3 作者之一，本科就读于卡内基梅隆大学，去年 1 月刚从加州大学伯克利分校博士毕业，也是 DALL-E 3 的作者，在英伟达实习时，就是视频生成研究的项目负责人。除了科研背景外，他还给国家地理杂志供稿，在百老汇演出，只能说天才就是天才，在哪个领域都能发光发热。

另一位负责人 William Peebles 则搞出了 Sora 的技术基础之一 DiT（扩散 Transformer）。论文还曾入围 CVPR 2022 最佳论文候选。本科就读于 MIT，主修计算机科学，参加了 GAN 和 text2video 的研究，还在英伟达深度学习与自动驾驶团队实习，研究计算机视觉。

Sora 团队的另一位负责人 Aditya 是 DALL-E 的创造者，主导了三代 DALL-E 的研究，和辉煌的成果相比，这位大佬却只有本科学历。读于纽约大学，但期间已经在研究生成式模型，并和 LeCun 共同发表论文。

团队最年轻的 00 后 Will DePue， 2022 年才从密西根大学计算机系本科毕业。但他在大四创业，创办了市场咨询公司 DeepResearch，后被 Commsor 收购。

除了以上成员外，Sora 团队还包含多位华人成员，例如本科毕业于北京大学物理系，就获得 MIT 物理学博士学位的 Li Jing。他曾在 Meta 做了 2 年多博士后，于 2022 年加入 OpenAI。

碍于篇幅的关系，剩下的团队成员就不一一介绍了，总之看完他们的简历后，只能感慨一声长江后浪推前浪。

🔊亚马逊开发出有史以来最大的文本转语音模型

除了 Sora 和 Gemini 1.5 外，亚马逊的人工智能研究团队近日宣布了一项重大突破：他们成功开发出了一款据称是有史以来最大的文本转语音模型，名为“可扩展流式文本转语音模型”（BASE TTS）。这个模型拥有惊人的 9.8 亿个参数，并利用超过 10 万小时的录音数据进行了训练，其中包括大量英语语音。研究人员还向模型提供了其他语言的单词和短语示例，以确保其正确发音，比如“au contraire” 和 “adios, amigo”。

通过对模型使用不同规模的数据集进行测试，研究人员发现当参数量达到 1.5 亿时，模型展现出了“涌现能力”，即突破到更高智能水平的现象。这种能力表现在多个语言属性上，包括使用复合名词、表达情感、使用外语词等。这一发现对于文本转语音技术的进步具有重要意义。

然而，鉴于潜在的滥用风险，研究团队决定不向公众开放该模型，而是将其作为学习应用，并希望利用所学知识来改善文本转语音应用的整体音质。这项研究的结果已经在 arXiv 预印本服务器上发表，详细描述了模型的开发和训练过程。