WSJ:今年 3 月,4 名中国码工飞往马来西亚,每人携带

u
ujinjin
楼主 (北美华人网)
今年 3 月,4 名中国工程师从北京飞往马来西亚,每人携带装有 15 块硬盘的行李箱,总计 80TB 的 AI 训练数据。他们在马来西亚数据中心租用了约 300 台配备先进 Nvidia 芯片的服务器,现场训练 AI 模型后带回国内。
自 2022 年美国收紧对华 AI 芯片出口以来,中国公司发展出多种应对策略:使用国产芯片替代、通过第三国走私硬件,以及将数据转移至海外使用美国芯片。随着走私渠道收紧,「数据出海」成为新选择。
这种操作模式经过精心规划:中国工程师提前 8 周优化数据集,通过新加坡子公司在马来西亚注册实体,聘请当地董事降低审查风险。为避免海关怀疑,硬盘分装四个行李箱携带。完成训练后,工程师携带数百 GB 的模型参数返回中国。
n
niuniudabao
嗯 带回中国就好
南开阿飞
还是有风险啊,不知道可以不可以到公海做这些事情,军舰护航。。。
g
gokgs
好像算法都是公开的, 有 GPU有数据就可以训练。 有钱就能搞。 美国限制个毛。
u
ujinjin
gokgs 发表于 2025-06-13 10:47
好像算法都是公开的, 有 GPU有数据就可以训练。 有钱就能搞。 美国限制个毛。

有这么简单吗?我只是觉得不可思议
m
mtwash
记得本科时候的课程计算机网络课本上有一个例子,不要小看一辆满载数据磁带的卡车,它具有很高的带宽,比当时的最先进的计算机网络的带宽要宽得多。
没想到在特殊的历史条件下,人肉数据传输又火了。
p
pinwheel
美国的情报机构也挺厉害的。。。。
H
Harenough
15个hardrive 才80tb?
可以是200,300个TB吧? 15个SSD还没有一个Tablet体积大。
g
give_me_a_space
回复 1楼 ujinjin 的帖子
这么一说,码工听起来像特工
f
felali9
电影走进生活里。键盘敲到飞起的码工执行着秘密任务。拎着黑色小皮箱,神出鬼没。
b
burneremaiI
怕什么, 咱们大美丽政府都用A1 算百位以内加减乘除给大家展示政府高层推动科技的决心了
j
jellynsyrup
就靠这种方式也做出了很厉害的ai,美国是不是应该反省了
c
coalpilerd
mtwash 发表于 2025-06-13 10:51
记得本科时候的课程计算机网络课本上有一个例子,不要小看一辆满载数据磁带的卡车,它具有很高的带宽,比当时的最先进的计算机网络的带宽要宽得多。
没想到在特殊的历史条件下,人肉数据传输又火了。

好亲切啊,我记得那个选择题。其他几个选项我都忘记是啥了,但是算出来带宽最高的是卡车,让我狠狠懵了一阵子。
W
WhatAgain
jellynsyrup 发表于 2025-06-13 11:20
就靠这种方式也做出了很厉害的ai,美国是不是应该反省了

open source
W
WernerCA
ujinjin 发表于 2025-06-13 10:49
有这么简单吗?我只是觉得不可思议

是的,就是这么简单。谁掌握了数据,谁就掌握了AI。这也是为啥皮夹克黄冒着风险也要到上海开厂的原因。因为只有中国目前有海量数据,而且没有那么多法律红线,基本上谁拿到了数据就可以用来训练AI模型。好多AI模型的训练代码都是开源的。
W
WernerCA
coalpilerd 发表于 2025-06-13 11:22
好亲切啊,我记得那个选择题。其他几个选项我都忘记是啥了,但是算出来带宽最高的是卡车,让我狠狠懵了一阵子。

就是两年前,我们还在某些大数据移植的项目中用FEDEX在两个数据中心之间空运硬盘/磁带。这个还是Fortune 100 的客户。
w
weiyixia
google最近AI挺猛,就是数据多吧。自己也有底子,再加上开源比如deepseek的东西,估计很快就能赶超chatgpt了。
W
WernerCA
而且现在的Nvme的SSD就像是一条口香糖大小就可以放4T数据。再海量的数据,一个登机箱就够了。
u
ujinjin
WernerCA 发表于 2025-06-13 11:41
是的,就是这么简单。谁掌握了数据,谁就掌握了AI。这也是为啥皮夹克黄冒着风险也要到上海开厂的原因。因为只有中国目前有海量数据,而且没有那么多法律红线,基本上谁拿到了数据就可以用来训练AI模型。好多AI模型的训练代码都是开源的。

中国的数据难道是任何人都能随时随便access的吗?
u
ujinjin
weiyixia 发表于 2025-06-13 11:44
google最近AI挺猛,就是数据多吧。自己也有底子,再加上开源比如deepseek的东西,估计很快就能赶超chatgpt了。

Google最近是很猛,突飞猛进那种
L
Luxury_Travel
这是违反了很多法律吧,包括中国的,比如数据不可以出境
H
Harenough
Luxury_Travel 发表于 2025-06-13 12:10
这是违反了很多法律吧,包括中国的,比如数据不可以出境

又不是一句话一刀砍,100%数据不能出。
数据出境很多规定,是可以出境的,要批准而已。
b
blocked
Harenough 发表于 2025-06-13 10:59
15个hardrive 才80tb?
可以是200,300个TB吧? 15个SSD还没有一个Tablet体积大。

普通民用NVME SSD现在8T,高端的U.2能做到122T,不过体积密度没有太大差别了
民用产品其实相对比较通用便捷,其实如果可以分拆加密,都不用人肉,邮寄小包就可以完全搞定。硬盘成本也很低。具体要看数据的保密价值了。
l
layjohns
Luxury_Travel 发表于 2025-06-13 12:10
这是违反了很多法律吧,包括中国的,比如数据不可以出境

敏感数据不能出境,比如滴滴那种,有个人资料,地理信息啥的,你要是训练奥林匹克数学竞赛大模型,不觉得数学题库有啥不可以出境的
s
shenandoah1
Luxury_Travel 发表于 2025-06-13 12:10
这是违反了很多法律吧,包括中国的,比如数据不可以出境

有很多AI模型不涉及到敏感数据,比如说扫地机器人的地形建模。
美国的问题是政府中懂技术的人太少,把很多事情想得过于神秘。
N
Northeastian
这种消息,特殊工种的才干,才会知道吧?
c
centenario
马工干这个合适,不会像007 还顺带拐个美女
g
gokgs
centenario 发表于 2025-06-13 13:01
马工干这个合适,不会像007 还顺带拐个美女

你瞧不起马公。 哈哈
a
autofill
数据才是核心
T
Tensor
干革命离不开美国科技。
l
layjohns
gokgs 发表于 2025-06-13 13:03
你瞧不起马公。 哈哈

马工在local找俩临时的就行了,带着干嘛
l
layjohns
Tensor 发表于 2025-06-13 13:11
干革命离不开美国科技。

美国制造还离不开中国稀土呢,说这种屁话有啥意思
W
WernerCA
ujinjin 发表于 2025-06-13 11:53
中国的数据难道是任何人都能随时随便access的吗?

当然不是“任何人”。但是政府是在这个“任何人”范围外的。
W
WernerCA
Luxury_Travel 发表于 2025-06-13 12:10
这是违反了很多法律吧,包括中国的,比如数据不可以出境

法律是服务于政权的。假如是官方需要这么做,法律根本就是厕纸。
w
wlf
这个网上的人对数据太不了解了,中文圈的数据基本上是垃圾,不可用,不是人多就会有有用的数据的,而且中文圈的历史数据论坛也是被删的根本找不到了,他们是去海外收集其它大模型产生的数据
m
mollyi
所以马航就是这样被消失的吗?
W
WernerCA
wlf 发表于 2025-06-13 14:18
这个网上的人对数据太不了解了,中文圈的数据基本上是垃圾,不可用,不是人多就会有有用的数据的,而且中文圈的历史数据论坛也是被删的根本找不到了,他们是去海外收集其它大模型产生的数据

那是因为你看的中文圈都是垃圾。你的层次不行。你大概觉得中文圈数据就是抖音、小红书。
l
layjohns
WernerCA 发表于 2025-06-13 14:58
那是因为你看的中文圈都是垃圾。你的层次不行。你大概觉得中文圈数据就是抖音、小红书。

也可能是大纪元
啥玩意
这是美国安全局坐屋里头脑风暴想出来的把
e
ecnanif
wlf 发表于 2025-06-13 14:18
这个网上的人对数据太不了解了,中文圈的数据基本上是垃圾,不可用,不是人多就会有有用的数据的,而且中文圈的历史数据论坛也是被删的根本找不到了,他们是去海外收集其它大模型产生的数据

以前是,以前查资料必须英文,中文资料很少,都是抄抄抄。
最近我查一般的东西东西都用中文了,资料也齐全,理解更方便。
学术论文还是英文,这个阻力比较大,中国大学的大牛也是发英文的,全世界通用。

w
wary
还以为每人携带一吨炸药
g
gvtt
mtwash 发表于 2025-06-13 10:51
记得本科时候的课程计算机网络课本上有一个例子,不要小看一辆满载数据磁带的卡车,它具有很高的带宽,比当时的最先进的计算机网络的带宽要宽得多。
没想到在特殊的历史条件下,人肉数据传输又火了。

但是速度慢 还要人工路由
g
gvtt
gokgs 发表于 2025-06-13 10:47
好像算法都是公开的, 有 GPU有数据就可以训练。 有钱就能搞。 美国限制个毛。

不卖给你gpu 有钱白搭
d
dinglingling
有种谍战片的惊险感觉
T
Tensor
layjohns 发表于 2025-06-13 13:13
美国制造还离不开中国稀土呢,说这种屁话有啥意思

芯片里面没稀土。
g
gvtt
最近把eda软件的使用权也限制了 各种压制你 以免被你超越 还得是勤劳智慧的中国人
买买提闲人
三月份的事,现在才爆,这新闻时效
k
keluoyi
give_me_a_space 发表于 2025-06-13 11:09
回复 1楼 ujinjin 的帖子
这么一说,码工听起来像特工

码农的形象突然从猥琐男变成了性感的特工,碟中谍9就让阿汤哥来演码农吧。
m
meftw
有点奇怪的新闻。80TB没多少啊,需要4x15=60块硬盘?现在大硬盘那么便宜,20TB硬盘比20块1TB便宜多了,公司应该不差这个钱吧。
m
meftw
pinwheel 发表于 2025-06-13 10:56
美国的情报机构也挺厉害的。。。。

60个硬盘装80 TB数据,情报部门没有觉得哪里不对?
w
wlf
笑死人了,楼上还有人说层次不高看的中文圈垃圾,谁说点层次高的中文圈网站。我自己的经验,中文圈的东西可信度极低,连从英文翻译过来都可能是相反的东西,所以所有中文圈的东西,都怀疑的态度去检验
b
blocked
meftw 发表于 2025-06-13 18:39
有点奇怪的新闻。80TB没多少啊,需要4x15=60块硬盘?现在大硬盘那么便宜,20TB硬盘比20块1TB便宜多了,公司应该不差这个钱吧。

Nvme SSD 8T 已经很亲民了,比大容量的机械硬盘密度高很多,便携,也更安全。还可以直接装在手提电脑里。
T
Texcat
ujinjin 发表于 2025-06-13 10:36
今年 3 月,4 名中国工程师从北京飞往马来西亚,每人携带装有 15 块硬盘的行李箱,总计 80TB 的 AI 训练数据。他们在马来西亚数据中心租用了约 300 台配备先进 Nvidia 芯片的服务器,现场训练 AI 模型后带回国内。
自 2022 年美国收紧对华 AI 芯片出口以来,中国公司发展出多种应对策略:使用国产芯片替代、通过第三国走私硬件,以及将数据转移至海外使用美国芯片。随着走私渠道收紧,「数据出海」成为新选择。
这种操作模式经过精心规划:中国工程师提前 8 周优化数据集,通过新加坡子公司在马来西亚注册实体,聘请当地董事降低审查风险。为避免海关怀疑,硬盘分装四个行李箱携带。完成训练后,工程师携带数百 GB 的模型参数返回中国。

感觉不是很可信, 这种活不是民工就可以干,为啥要马工呢?
T
Texcat
meftw 发表于 2025-06-13 18:40
60个硬盘装80 TB数据,情报部门没有觉得哪里不对?

美国人数学不好,连ChatGPT 也被传染的算不好。
m
meftw
blocked 发表于 2025-06-13 20:44
Nvme SSD 8T 已经很亲民了,比大容量的机械硬盘密度高很多,便携,也更安全。还可以直接装在手提电脑里。

所以我觉得这个新闻不可信,有点脑子的都不会这样带硬盘
s
shenandoah1
meftw 发表于 2025-06-13 21:04
所以我觉得这个新闻不可信,有点脑子的都不会这样带硬盘

也许带的就是SSD,但WSJ的记者分不清SSD和硬盘。
m
meftw
shenandoah1 发表于 2025-06-13 23:25
也许带的就是SSD,但WSJ的记者分不清SSD和硬盘。

SSD也不至于要60个
m
mylittle9
keluoyi 发表于 2025-06-13 17:07
码农的形象突然从猥琐男变成了性感的特工,碟中谍9就让阿汤哥来演码农吧。

LoL

h
heJJ
wlf 发表于 2025-06-13 14:18
这个网上的人对数据太不了解了,中文圈的数据基本上是垃圾,不可用,不是人多就会有有用的数据的,而且中文圈的历史数据论坛也是被删的根本找不到了,他们是去海外收集其它大模型产生的数据

这真是蠢扯谈了。。
在拿病人数据方面,中国太容易了。 而且数据量巨大。还论坛数据。。
h
heJJ
meftw 发表于 2025-06-13 18:40
60个硬盘装80 TB数据,情报部门没有觉得哪里不对?

难道CIA用的硬盘最大2T?
g
gvtt
别争了 备份 冗余 就带一份 图啥
B
Baobao6518
上有政策,,下有对策,可以理解
s
smilieface
阿汤哥老了要求换人