• Jojo's NewsLetter
  • Posts
  • 中文是英文两倍!AI训练成本差距巨大。老黄牛Meta又有新AI,文生音乐AudioCraft

中文是英文两倍!AI训练成本差距巨大。老黄牛Meta又有新AI,文生音乐AudioCraft

马斯克疑似从OpenAI手中拿到AI.com域名,今日实测AI工具推荐:Read Aloud ,帮犯懒的你直接读文本

2023/08/03 Thursday

周四快乐!

💸AI训练成本差异巨大,简中比英文贵两倍

🎵Meta又有新AI,文生音乐AudioCraft

📣 马斯克疑似从OpenAI手中拿到AI.com域名

💸AI训练成本差异巨大,简中比英文贵两倍

昨天Twitter用户Dylan Patel展示了牛津大学的研究结果:GPT-4 和其他常见语言模型语言训练成本差异巨大。

根据牛津大学研究,得益于互联网上丰富的英文数据,英文的输入输出比其他语言更便宜,简体中文的成本约为英文的2倍,西班牙文是英文的1.5倍,缅甸撣文则高达英文的15倍。在文本处理的第一步,词元是将自然语言文本转换成词元序列的过程。LLM计算力成本核算表明,词元越多,耗费算力成本就越高。在生成式AI商业化趋势下,算力成本也会转嫁给用户,许多AI服务的收费标准就是按处理的词元量计费。

该研究主要是分析了17种词元化方法,发现将相同文本转换成不同语言的词元序列长度差异巨大,即使模型支持多语言,也无法做到完全公平。以OpenAI GPT3 tokenizer为例,将“你的爱意”词元化为英文只需两个词元,而简体中文虽然只有4个字但需要八个词元。如果LLM处理一句英文只需17个词元,但处理同样意思的缅甸文则需要198个词元,相当于英文的11倍成本。OpenAI也有类似的数据,英文文本约4个字符,100个词元约等于75个英文单词。所以在训练AI上英文是最大受益者,成本效益最高。

🎵Meta又有新AI,文生音乐AudioCraft

Meta简直是AI界的老黄牛,这不他们又发布了一款新的音乐类生成式AI工具“AudioCraft”,只要用户输入简单文字描述就能生成一段全新音乐或音效,产生复杂的创作旋律,甚至还能模拟整个管弦乐队。

生成式音乐AI工具发展远远滞后于大众熟知的文本生成式AI或图片生成式AI,现在比较知名的音乐类AI由于生成式音乐非常复杂且开放度不够,对于普罗大众的门槛还是有些高。现在Meta希望他们新推出的AudioCraft让AI音乐社群更加丰富。

AudioGen由3个核心训练模型组成:AudioGen、MusicGen和EnCodec。其中EnCodec是一种基于神经网络的音乐压缩编解码器,经过改善调整后能生成更高品质的音乐

可用于生成各种音乐效果和音景,比如狗叫、汽车喇叭鸣声、木地板上的脚步声等

MusicGen可根据描述创造音乐作品和旋律,从头开始创作各种类型的歌曲

现在Meta在网站提供多个样本供参考,大家不妨去听听看。

📣马斯克疑似从OpenAI手中拿到AI.com域名

AI.com作为AI界最有代表性的域名之前一度被OpenAI持有,点击AI.com会跳转到ChatGPT页面。不过现在如果你点击的话就会发现它转到了Elon Musk新成立的AI公司x.ai。

江湖传闻OpenAI在 2021花了1100万美元购得 AI.com 域名。闲置了两年时间后,在 2 月份突然开始重定向到 ChatGPT。对于 ChatGPT 用户来说除了是好用的快捷方式,但是也没有阻止ChatGPT流量下滑的趋势。

至于马斯克如何从OpenAI手里拿到该域名现在还不得而知,不过从他白嫖了@xai和@X两个推特用户名来看,我不觉得他舍得花一千万美元买AI.com域名。

🔧今日实测AI工具推荐

Read Aloud - 犯懒不想读文字可以试试Chrome插件Read Aloud,帮你读文本,还能中英双语。
短视频教程: