字节跳动公布大语言模型 chatbot 豆包达到chtgpt4的水平,训练成本只要6百万。难怪MSFT放弃OpenAi

w
whaled
楼主 (文学城)

https://youtu.be/MozJ43LMR6I?si=-8mjn8HJG9vpF2vE

看来也不需要那么多的核电站和上千亿的投资也可以做高质量的LLM和AI。

大观园的贾探春
那个只是训练成本,只是一次性的,不是训练好后deploy运作的成本。AI数据中心主要是deploy后运作的算力。
湖上散人
嗯, 只要能偷到就行
1
12度圆缺
你这也信?
我是谁的谁
实在忍不住。你懂你自己mumbling bumbling的东西么?
b
bagel_bites
WTF is wrong with you?

你可以侮辱你自己,别把美国人那套loser心态带到紫檀来

F
Feinbery
虽然对祖国的东西绝大部分不信。但字节跳动还是很牛的。居然这么多美国高科技公司干不过它。让我百思不得其解。
古代的事物
这个不是孤立的,不太像依次放卫星
q
quantnj
也要open minded. Alex Wang这样的专家都认为测试结果在同一档。也许不是通用,但这种开源系统,公司可

以买去开发专用AI系统

大观园的贾探春
这是豆包和GPT-4两种不同的approach的优劣比较,according to ChapGPT:

Doubao’s sparse Mixture of Experts (MoE) design and GPT-4’s dense model architecture represent two distinct approaches to scaling large language models. Here’s how they compare in terms of advantages and disadvantages:

 

Advantages of Doubao’s Sparse MoE Design

    1.    Computational Efficiency – Sparse MoE activates only a subset of the total model parameters for any given input. This allows for a model with a high total parameter count while keeping the computational cost per inference lower than a dense model of the same scale.

    2.    Scalability – MoE architectures scale more easily by adding more experts (specialized subnetworks), leading to better performance on diverse tasks without linearly increasing inference costs.

    3.    Specialization – Different experts can specialize in different domains, potentially improving task-specific performance and generalization compared to a monolithic dense model.

    4.    Energy and Cost Savings – Because only a few experts are active per token, power consumption and inference costs are reduced, making large-scale deployment more sustainable.

 

Disadvantages of Doubao’s Sparse MoE Design

    1.    Latency from Routing Overhead – Sparse MoE requires a gating mechanism to decide which experts should process each input, adding computational overhead and potential latency.

    2.    Training Complexity – Training an MoE model is more complex than training a dense model, requiring careful balancing of expert load (avoiding underuse or overuse of specific experts) and preventing mode collapse (where a few experts dominate).

    3.    Increased Memory Footprint – Even if only a subset of experts is active at a time, all experts exist in memory, which can lead to higher storage and memory bandwidth requirements compared to a dense model with the same active parameter count.

    4.    Inference Challenges – Sparse MoE models require more complex inference infrastructure, making them harder to deploy in environments that do not support dynamic expert routing efficiently.

 

Advantages of GPT-4’s Dense Model

    1.    Predictable and Optimized Inference – Since all parameters are always active, inference is more predictable and optimized for existing AI hardware architectures.

    2.    Simpler Training and Deployment – Dense models avoid the complexities of MoE routing, expert balancing, and specialized hardware needs, making them easier to train and deploy across different environments.

    3.    Better Parameter Utilization – All parameters contribute to every inference step, meaning there is no risk of underutilized experts, which can be a problem in MoE models.

    4.    More Robust to Edge Cases – Dense models tend to be more stable across a wide range of inputs since they do not rely on expert selection mechanisms that might misroute certain inputs.

 

Disadvantages of GPT-4’s Dense Model

    1.    Higher Computation Costs – A dense model of the same total parameter count as an MoE model would be far more computationally expensive to run, as all parameters are used at all times.

    2.    Limited Specialization – While dense models can generalize well, they do not inherently provide specialized pathways like MoE, which can limit performance on domain-specific tasks.

    3.    Scaling Limitations – As models grow larger, computational demands increase exponentially, making dense models more difficult to scale efficiently compared to sparse MoE architectures.

 

Conclusion

 

Doubao’s sparse MoE design is advantageous for efficiency, scalability, and specialization but introduces challenges in routing, training, and deployment. GPT-4’s dense model is more predictable and stable but suffers from high computational costs and limited specialization. The choice between them depends on the trade-offs between efficiency, scalability, and deployment complexity.

 
我是谁的谁
这里太多了
j
julie116
可以像挖矿一样借用网上内存啥的吧
1
12度圆缺
这个我同意
w
whaled
OpenAI以前指责过豆包用它的API输出训练模型。豆包承认是有一个小组用OpenAI训练很小部分但后来把数据清理出来了
我是谁的谁
有什么百思不得其解?共党邪恶呗
w
whaled
但根本问题是OpenAI花几百上千亿做训练路子对不对
b
bagel_bites
我估计是用它的输出逆向工程,揣摩OAI的架构

其实DS开源了,但凡OAI的人有点踏实的精神,你逆向一下也可以猜猜人家的算法架构是怎样的。那个Altman就是一个搅屎棍,把人工智能的方向给带偏了,谷歌的Demis曾经批评过。其实生成式人工智能只是一个分支而已,真正打开AGI的大门还得从RL入手。

不是有人已经说了,我们要的人工智能不是写诗画画,而我却只能做饭洗碗。真正的人工智能是能帮我做饭帮我洗碗,而我去写诗和画画。

大观园的贾探春
AI Infrastructure花的钱建的数据中心的算力主要不是做训练,而是训练后deploy持续运作的算力。
b
bagel_bites
一群既不懂行又看不起中国人智商的弱势群体
青裁
英伟达和几个头部AI公司股票悬了
w
whaled
这个和我儿子说的一样,他也说RL才有课题可做,GenAI做得太多了
我是谁的谁
这里某些人设连AI是什么都搞不懂,一直喋喋不休,烦死了
b
bagel_bites
她连啥叫checkpoint 和 inference都不懂,就知道嚷嚷data center, power plant
大观园的贾探春
谷歌DeepMind的Demis那个是RL,和Altman的Generative AI是AI里不同的两个门派。
青裁
同意,RL是主方向
b
bagel_bites
显而易见

一只刚出生的鸟,从来没看过墙,却知道要飞跃它,你觉得那是大数据训练出来的?那可怜的小鸟得有多大的脑袋,还没收集完数据就撞墙撞死了

我是谁的谁
先装上再说,呵呵
b
bagel_bites
Demis也搞生成式人工智能的,大姐
我是谁的谁
这里大部分连皮毛都没有搞懂
b
bagel_bites
Hinton 的 Boltzmann Machine 实践上落后了,理论还是站得住的
我是谁的谁
RL只能是domain narrow,所以不会有什么AGI
b
bagel_bites
policy是可以学习和巩固的,这就是人脑学习的过程

产生联想只是一(大)步之遥。

凊荷
这个冒傻气了

deepseek 完全真正open source,奥特曼肯定一行一行对过code。LOL

 openAI被扇耳光子了。

t
tidytiger
哈哈,在美华人自恨的真多啊!和烙印对比真是鲜明。看数据所有美国亚裔rank众多亚洲国家都是

把自己的母国rank第一有好感,,包括日本,韩国,台湾,印度等给母国极高的分。就是Chinese-American rank China给个pathetic 的41。

凊荷
有本事读code去呀。中国的是open source,已经放出来了

谁敢说是被偷了。 小看中国,迟早被打脸

我是谁的谁
产生联想是不可逾越的鸿沟,因为电脑没有自主意识,人脑才有
b
bagel_bites
这个将来的事情不好说,我觉得可能。

其实我们人类没那么高级,情感上不接受不见得就是事实

M
Midwestrural
这个是中国人的问题,还是中国政府的问题,还是文化的问题,还是都有问题? 赫赫。。
我是谁的谁
情感是关键词here。。。哪天电脑有了情感,人类就准备后事吧。不过我认为不可能。
t
tidytiger
不知道原因,但有人认为可能是被survey的在美华人人年龄偏大。就紫檀看,这个数据还是比较真实的。
M
Midwestrural
这些年龄偏大的人三十年前也是这样的认识么?赫赫。。现在年轻的三十年后又会有多少保存现在的想法呢?
F
Feinbery
希特勒不邪恶么?德国那时出多少牛科学家?我党治下10来亿人,才出几个?
l
lionhill
去看看美国人的评价,不要一说起中国的东西好像一文不值

l
lionhill
自己上X去读读评论,不要忘自菲薄!
B
Bailey4321
这。。。那些科学家几乎都是犹太人。难道是希特勒培养的?他说量子力学是犹太人的科学。所以不相信核武研究

一失足成千古恨。

F
Feinbery
跟这种赖在我们美国的中国人浪费什么口舌么。嘿嘿
F
Feinbery
谁说几乎都是犹太人的?诺奖近半德裔,近1/4犹太裔。当然按人口比例还是犹太人牛些
M
Midwestrural
赫赫,三十年前我在同学家的饭桌上把我同学的爹说得是满脸通红,只因他去了趟日本回来后,饭桌上说起中日的不同。。

我当时很生气,那些个反党反社会主义的言论我是一定要打回去的。。结果一桌同学就看着我把他说得是节节后退,最后他说有机会让我自己去资本主义社会看看,我的想法就会有些不同。。

三十年过后如果我还有机会见到我同学的爹,我会跟他说当年我年幼无知,又不了解日本,所以当时说错了很多话。。

他当年说的没错。。

F
Feinbery
你和我党极力宣传的越出国越爱国背道而驰啊。嘿嘿
M
Midwestrural
现在这些年轻人多是还没有真正进入过中国的社会就出来了,没有体会和见识过我党的黑。。赫赫。。其实只要回去工作个三五年。。

想法就不一样了。。

t
tidytiger
赖在美国?您脸真大,可真会侮辱人。我真于自己的本心,身份认同上没有觉得自己是个真正的美国人,

就不入籍,比你这号人有傲骨诚实多了!

F
Feinbery
我不觉得,因为中国人民斯德哥尔摩症多啊
F
Feinbery
兔妈,快来,这位在说你无傲骨不诚实呢。嘿嘿
t
tidytiger
你个大男人,行事如此不磊落,我鄙夷你。我说你呢,你导向兔妈。
A
Amita
所有有野心的人都是这样吧?美国偷英国纺织技术,台积电偷TI,华为偷思科,关键是把偷的东西变成自己的然后超越前人
w
wass
一年后达到便宜的多,超过更贵