- Jojo's NewsLetter
- Posts
- 中文是英文两倍!AI训练成本差距巨大。老黄牛Meta又有新AI,文生音乐AudioCraft
中文是英文两倍!AI训练成本差距巨大。老黄牛Meta又有新AI,文生音乐AudioCraft
马斯克疑似从OpenAI手中拿到AI.com域名,今日实测AI工具推荐:Read Aloud ,帮犯懒的你直接读文本
2023/08/03 Thursday
周四快乐!
💸AI训练成本差异巨大,简中比英文贵两倍
昨天Twitter用户Dylan Patel展示了牛津大学的研究结果:GPT-4 和其他常见语言模型语言训练成本差异巨大。
根据牛津大学研究,得益于互联网上丰富的英文数据,英文的输入输出比其他语言更便宜,简体中文的成本约为英文的2倍,西班牙文是英文的1.5倍,缅甸撣文则高达英文的15倍。在文本处理的第一步,词元是将自然语言文本转换成词元序列的过程。LLM计算力成本核算表明,词元越多,耗费算力成本就越高。在生成式AI商业化趋势下,算力成本也会转嫁给用户,许多AI服务的收费标准就是按处理的词元量计费。
该研究主要是分析了17种词元化方法,发现将相同文本转换成不同语言的词元序列长度差异巨大,即使模型支持多语言,也无法做到完全公平。以OpenAI GPT3 tokenizer为例,将“你的爱意”词元化为英文只需两个词元,而简体中文虽然只有4个字但需要八个词元。如果LLM处理一句英文只需17个词元,但处理同样意思的缅甸文则需要198个词元,相当于英文的11倍成本。OpenAI也有类似的数据,英文文本约4个字符,100个词元约等于75个英文单词。所以在训练AI上英文是最大受益者,成本效益最高。
The cost of LLM inference varies hugely based on the language for GPT-4 and most other common LLMs.
English is the cheapest.
Chinese is 2x English.
Languages like Shan + Burmese are 15x more expensive.
This is mostly because of how tokenizers work so need to output more tokens— Dylan Patel (@dylan522p)
9:22 PM • Jul 28, 2023
🎵Meta又有新AI,文生音乐AudioCraft
Meta简直是AI界的老黄牛,这不他们又发布了一款新的音乐类生成式AI工具“AudioCraft”,只要用户输入简单文字描述就能生成一段全新音乐或音效,产生复杂的创作旋律,甚至还能模拟整个管弦乐队。
生成式音乐AI工具发展远远滞后于大众熟知的文本生成式AI或图片生成式AI,现在比较知名的音乐类AI由于生成式音乐非常复杂且开放度不够,对于普罗大众的门槛还是有些高。现在Meta希望他们新推出的AudioCraft让AI音乐社群更加丰富。
AudioGen由3个核心训练模型组成:AudioGen、MusicGen和EnCodec。其中EnCodec是一种基于神经网络的音乐压缩编解码器,经过改善调整后能生成更高品质的音乐
可用于生成各种音乐效果和音景,比如狗叫、汽车喇叭鸣声、木地板上的脚步声等
MusicGen可根据描述创造音乐作品和旋律,从头开始创作各种类型的歌曲
现在Meta在网站提供多个样本供参考,大家不妨去听听看。
📣马斯克疑似从OpenAI手中拿到AI.com域名
AI.com作为AI界最有代表性的域名之前一度被OpenAI持有,点击AI.com会跳转到ChatGPT页面。不过现在如果你点击的话就会发现它转到了Elon Musk新成立的AI公司x.ai。
江湖传闻OpenAI在 2021花了1100万美元购得 AI.com 域名。闲置了两年时间后,在 2 月份突然开始重定向到 ChatGPT。对于 ChatGPT 用户来说除了是好用的快捷方式,但是也没有阻止ChatGPT流量下滑的趋势。
至于马斯克如何从OpenAI手里拿到该域名现在还不得而知,不过从他白嫖了@xai和@X两个推特用户名来看,我不觉得他舍得花一千万美元买AI.com域名。
🔧今日实测AI工具推荐