淘宝双十一数据疑似造假？ - 2019年11月13日虎扑存档 (第 2 页)

大概认真了解了一圈，感觉这个事儿我觉得真没啥阴谋论，consulting的朋友可以从一百个角度论证kpi应该落在这个range，运营有一百种方式实现kpi，完全没必要落到官方带你造假的地步～只是觉得阿里为什么要这样定kpi（就是这条曲线在内部是如何科学产生的）是一个很有意思的话题2333 谢谢大家提供的观点了w

樱

樱杞花开

5 年多

我觉得阿里再造假也不可能用这么简单的回归数据造假。最有可能的就是按回归值设定考核Kpi了，如何达成这个kpi自然有很多办法，毕竟人家是做大数据的。

木

木巷166

5 年多

之后有人算了算亚马逊的数据，也是疑似造假，都是公司的目标罢了

莱

莱特克医生

5 年多

引用 @messiah1986 发表的:
我觉得这个比较有意义
本身就是设定好让你在这一时间消费，再加上双十一前很大部分的定金冲抵，可以很明确地将已付定金消费剩余的尾款作为当晚的必然收入，增加数据的确定性
总之我觉得水分可以接受，主要是产出的水分是不是会影响消费者或者是国家整体经济？

经常搞统计的就直到这个数据有多恐怖
所以我看这个知乎回答的第一反应的知乎被公关了

樱

樱杞花开

5 年多

引用 @晨风之刃发表的:
给铁子们通俗的解释一下：就是淘宝近十年的销售数据完美拟合一个以年份为变量的方程。然后用这个方程预测去年和今年的销售额基本一致。如果是自然搜集或者产生的数据不应该这么完美，所以推断淘宝对自己的销售额有修正或注水。

还有一点其实很多人高估了这个难度。这个数据不是一下子出来的，双11有一整天的时间可以根据分时数据调整优惠策略为达到最终的KPI指标，比如中午比预期收入低了，那就分配几个大店加大优惠力度什么的。

秦

秦皇何事苦苍生

5 年多

双十一这个数据吧，今年增加少了不好看，增加多了明年压力就大了，所以肯定会制定一个最佳增长数据，然后每年努力实现这个数据。就跟经济增长率一样，你要说是完全凭空编的吧，肯定也不是，但是一定是用了各种手段，咱就不知道了。

起

起点是零

5 年多

引用 @斯文叫花子发表的:
店铺完不成任务，然后靠刷单？？？
需求可以刺激，可以创造...
但是真实的需求能根据企业的需求而被定制吗？

刷单占比，拼多多》》京东》淘宝，做电商的都懂这点

中

中华门

5 年多

这个方程式是多少？

四

四分之三

5 年多

引用 @哈有趣发表的:
昨天晚上淘宝各大旗舰店突然上架了一批0元福袋标价一百到两千收货后退款明显是有销售额的指标

每个企业都要在天猫造假的目的就是制造该企业的东西好的假象

我是做建材的

比如木门衣柜橱柜集成灶瓷砖各种电器总之双11 都会造假都有任务都必须完成
就是钱是真买了也真的发货了但其实货没有发钱再转回来

这不是马云想不想的问题是每个企业都想的结果然后大肆的在朋友圈宣传该企业多么牛比 [ 此帖被四分之三在2019-11-12 20:22修改 ]

小

小小小小小Y

5 年多

引用 @哈有趣发表的:
昨天晚上淘宝各大旗舰店突然上架了一批0元福袋标价一百到两千收货后退款明显是有销售额的指标

事实就是这样子，如果明年是3300亿结果实际做到了3200亿的话当天晚上天猫小二是绝对会给各大旗舰店下多一次销售额目标，强行做到3300亿的，说造假也不太对，但是确实是可以人为操控大概金额的吧！当然要是3300亿只做到了两千亿，剩下这一千多亿阿里在如何介入操控怕都是无力回天！

Vinnieee

5 年多

引用 @弄布灵清发表的:
恭喜你答对了阿里是上市公司如果数据造假可以申请索赔可以去美国起诉了否则等帖子火了等着收阿里法律部的律师信吧

放心，收律师信还轮不到虎扑，这个新闻你以为是虎扑原创？微博早就炸锅了，热搜一直压着而已

Swethiver

5 年多

非杠，可是R平方大并不能说明什么呀

虎

虎扑用户139385

5 年多

这是典型的spurious regression

虎

虎扑用户147405

5 年多

引用 @晨风之刃发表的:
...首先自变量有十一年，取出了两个最近的节点做回测...其次我只是在描述这组数据做回归拟合的很好...用了疑似而不是实锤... 这个R方确实有些离谱... 我也没做因果推断...没有强加因果...不知道您在喷我什么

个人认为，这个数据这样做没有太大的统计学意义，样本量太少。

qiang0206

5 年多

引用 @洛杉矶湖人队魂发表的:
插眼明年来看是不是3300亿

明年3300淘宝就是傻

FuckingKill

5 年多

引用 @洛杉矶湖人队魂发表的:
插眼明年来看是不是3300亿

今年的实际交易额是2684，已经完成了预测了

JackKoo

5 年多

说不定又得危机公关了

蓝

蓝一方

5 年多

引用 @阿兹特克帝国发表的:
淘宝有专门和那些大店对接的小二，小二会给大店提出一些销售额的要求，能达到的话就给流量，所以为了流量，那些再🐮🍺的大品牌也会放下身子去完成淘宝小二下的任务。

所以他们的完成匹配率是99%以上，你想想怎么可能

杜

杜绝崇拜23

5 年多

引用 @0371糖爸发表的:
关键是4月份的时候有人发现了

风

风中流泪

5 年多

引用 @麦牙套的火箭发表的:
r方0.99，真的🐮🍺嗷铁汁，不如再看看破百亿的用时是否也是这样的(ಡωಡ)

有个瑕疵，就是样本太少，只有十个样本，很容易做到99的拟合度。
如果是50个样本的回归，那就很有说服力了。

何

何人舣舟临古汴

5 年多

引用 @晨风之刃发表的:
给铁子们通俗的解释一下：就是淘宝近十年的销售数据完美拟合一个以年份为变量的方程。然后用这个方程预测去年和今年的销售额基本一致。如果是自然搜集或者产生的数据不应该这么完美，所以推断淘宝对自己的销售额有修正或注水。

今年天猫的优惠力度真的太一般了吧，搞得什么吊盖楼活动，我看很多人都在玩那个，还有为了凑单有多少退货的，实际的数据要打多少回扣，不过这些无非也是商家和消费者倒霉罢了，淘宝该赚还是赚。

cmmytm

5 年多

太过均匀，不是自然界的产物，不符合事物发展客观规律

骅

骅哥带你飞

5 年多

引用 @麦牙套的火箭发表的:
r方0.99，真的🐮🍺嗷铁汁，不如再看看破百亿的用时是否也是这样的(ಡωಡ)

作为统计学生，想借个楼对这个拟合度r²为0.99的问题发表一下自己的看法，其实美国黑色星期五在三次线性回归的情况下，也是基本完全拟合的。这说明什么了呢，当然并不是因为中美的数据都造假，而是因为在这种情况下，一定自然的增长曲线本来就是符合多项式曲线的，也即泰勒展开式所示——多项式函数分布可以近似一切函数分布。

用

用户1537002605

5 年多

大概率也不是完全造假，估计就是上头定的kpi，淘宝内部也有运营模型通过优惠，推广，甚至掺水的手段完成了目标，看起来就拟合的很好。但是淘宝为什么要通过人身攻击说人造谣的方式来公关呢，大可展现下淘宝内部的数据模型是如何精确预测，完成运营目标的。

Ccyril

5 年多

引用 @洛杉矶湖人队魂发表的:
插眼明年来看是不是3300亿

看起来是同行，r+第一年学的统计方法hhh
但是我说实话拟合数据的人但凡有点水平也不该用这么小的random variance……不说用个非正态的起码方差也该大一点……但是话又说回来方差大了容易出现不理想数据……

虎

虎扑用户382189

5 年多

引用 @晨风之刃发表的:
给铁子们通俗的解释一下：就是淘宝近十年的销售数据完美拟合一个以年份为变量的方程。然后用这个方程预测去年和今年的销售额基本一致。如果是自然搜集或者产生的数据不应该这么完美，所以推断淘宝对自己的销售额有修正或注水。

大公司这种定目标想尽办法达到的很正常，光从backtest是不能得出数据造假或者修正的结论的，也有可能是阿里的执行能力就是很强或者一个点凑巧了。更严格一点的分析应该是把当年第四季度的财报收入也拿出来做拟合，如果误差相差很大的话才能证明数据作假。

影

影戮黄昏

5 年多

楼主方便把regression的代码发一下吗。。。最近正好学了r想看看楼主怎么算的哈哈

大

大脸汪

5 年多

我觉得把京东的销售数据按同样的方法比对一下，才有说服力吧。

虎

虎扑用户832876

5 年多

引用 @晨风之刃发表的:
兄弟这是一个先验和后验的事情。投资人确定增长函数是一个先验的事情，我们只能通过已有数据去估计这个函数（统计里叫做回归和参数估计），来确定这个函数。争议最大的点就是，正常来说，我们通过数据估计函数会有偏差，且偏差往往不小。但是这组数据过于完美，计算出R方接近于1（1是没有偏差）。

为什么阿里做这个函数的时候不加点随机项...

虎

虎扑用户424244

5 年多

引用 @弄布灵清发表的:
恭喜你答对了阿里是上市公司如果数据造假可以申请索赔可以去美国起诉了否则等帖子火了等着收阿里法律部的律师信吧

这么正好的吻合人家质疑一下又怎么了？也是真实的啊咋就律师信？这么大公司还怕虎扑老哥跑数据？

lbchosen1

5 年多

肯定数据造假啊，这可是在中国

bravenewworld

5 年多

这也太逗了

虎

虎扑用户157603

5 年多

xswl，10个数据点高次方程拟合度本来就会好。你这样用三次多项式的理论依据何在呢？r^2高你考虑多重共线性了吗？做过稳健，协整检验了吗？学过微分方程的增长模型吗？从来没有这样见过做时序分析的。计量门都没入就高潮了真是🐂🍺了

用

用户0272035796

5 年多

请问lz I(year^2)是什么？

虎

虎扑用户935155

5 年多

引用 @洛杉矶湖人队魂发表的:
插眼明年来看是不是3300亿

明年改也不是，不改也不是了。。。

虎

虎扑用户935155

5 年多

其实我认为如果阿里巴巴不搞噱头，就等一个月在统计一下发出来，一个月该退的也退了，看看实际双十一当天的真实成交额是多少

虎

虎扑用户031728

5 年多

作为电商人来说下吧，今年淘宝确实没有去年的好。主要拼多多起势太猛，刮分了很大一部分流量！

騎

騎士小皇帝立邦詹士

5 年多

引用 @风中流泪发表的:
有个瑕疵，就是样本太少，只有十个样本，很容易做到99的拟合度。
如果是50个样本的回归，那就很有说服力了。

2060还有没有淘宝是个问题

alps_1202

5 年多

引用 @刚看篮球3 发表的:
投资人为什么恰好选择这个函数，或者说这个方程有啥特殊意义值得去满足吗

阿里是上市公司，股东有很多。上市公司不可以和单一或者多个股东签署对赌协议。所以如果是投资人要求，公告里是可以看到的。反过来讲，阿里符合增长函数，倒是对增长函数的又一次印证，说明数学家在观察世界时模型的准确性。

ekfrz

5 年多

引用 @风中流泪发表的:
有个瑕疵，就是样本太少，只有十个样本，很容易做到99的拟合度。
如果是50个样本的回归，那就很有说服力了。

虽然只有十个样本，但是别人只用了二次多项式就可以达到0.99还是挺离谱的

Felix10Alex11

5 年多

引用 @洛杉矶湖人队魂发表的:
插眼明年来看是不是3300亿

明年换公式了

顶

顶薪面瘫黑

5 年多

引用 @CLoUd℡ 发表的:
投资人一般为非业内人士，以科学的模型去预测运营数据的。承诺股东投资人什么数据，或者说投资人想要什么样子的数据，企业自然就往这个目标去操作。

你这么说我就懂了，今年参与了某项目，正常统计结果是八百多，上面领导要求上一千，后来干到1003了。

汉

汉江陵大帝

5 年多

引用 @晨风之刃发表的:
给铁子们通俗的解释一下：就是淘宝近十年的销售数据完美拟合一个以年份为变量的方程。然后用这个方程预测去年和今年的销售额基本一致。如果是自然搜集或者产生的数据不应该这么完美，所以推断淘宝对自己的销售额有修正或注水。

不用注水，本来就是淘宝的目标往上面靠就行了，修改数据没有任何意义

虎

虎扑用户889832

5 年多

我看回应说，可以但没必要，淘宝每次都为了达到某个目标限制流量或者提升流量，这样数据好看每年都有自己想要的增长，也不至于一次到了极限明年就比较难了。

辉

辉月

5 年多

引用 @刚看篮球3 发表的:
不懂就问，为什么恰恰做到这个数据，这个数据对阿里的好处是啥？比如既然是作假，卫星放的更大一点不好吗？为啥要恰恰符合这个函数

牛皮不能吹太大，不然下一年怎么吹？

David先生

5 年多

数据拟合得好就代表作假？你有没有做一个关于数据拟合的假设检验呢？没做你说毛？而且说句不好听的话，如果真要数据作假，你觉得会有人真的这么卡数据？而且你用的是三次型拟合，为什么不试试其他？这个世界有无数种插值的方式，选一种拟合到99%有什么难的？

严

严之易

5 年多

在kpi定的太完美了哈哈哈

巴

巴拉之熊熊

5 年多

引用 @樱杞花开发表的:
还有一点其实很多人高估了这个难度。这个数据不是一下子出来的，双11有一整天的时间可以根据分时数据调整优惠策略为达到最终的KPI指标，比如中午比预期收入低了，那就分配几个大店加大优惠力度什么的。

天猫淘宝的店铺的双11优惠活动在双11前早就确定了，怎么可能说变就变，每一笔优惠都需要公司老板或者总经理签批的，店铺运营的人了没这个权力，淘宝的人更没有，除非钱由淘宝补贴

虎

虎扑用户874980

5 年多

牛批

微

微暗的小火

5 年多

引用 @晨风之刃发表的:
给铁子们通俗的解释一下：就是淘宝近十年的销售数据完美拟合一个以年份为变量的方程。然后用这个方程预测去年和今年的销售额基本一致。如果是自然搜集或者产生的数据不应该这么完美，所以推断淘宝对自己的销售额有修正或注水。

选线性回归模型时，低次方容易 underfitting（用直线拟合总是 underfitting），这种情况比较 R^2 才会越高越好。但高次方容易 overfitting，不能看 R^2 下结论，只能用测试数据验证（原则上所有模型如此）。

微

微暗的小火

5 年多

引用 @微暗的小火发表的:
选线性回归模型时，低次方容易 underfitting（用直线拟合总是 underfitting），这种情况比较 R^2 才会越高越好。但高次方容易 overfitting，不能看 R^2 下结论，只能用测试数据验证（原则上所有模型如此）。

能不能亮我上去

虎

虎扑用户845116

5 年多

天猫再次回应“双11数据造假”：已启动司法流程

针对“网友质疑天猫双11数据造假”一事，天猫相关负责人回应称，“按照网友的逻辑，符合统计趋势的就是假的。那么，世界经济总量也是能被预测的，经济发展也是假的吗？自己YY下满足自嗨就算了，由此得出天猫双11数据造假，就是造谣了哦，要负法律责任的！”
今日，天猫发言人官博再次回应称，已就这则谣言启动司法流程，希望再没有这样侮辱大家智商的“智商测试”。（新浪科技/每日经济新闻）

虎

虎扑用户573317

5 年多

但并不影响你在淘宝买球鞋

虎

虎扑用户514424

5 年多

有造假的，第二天退款的不少

whylloveyou

5 年多

数据先不说，压单半个月，各种刷单、后期退单跑单，无效销售额比例其实真的不低，往年统计退单13%左右这只是冰山一角。
不单单是淘宝，京东也一样。

jiajianchengchu

5 年多

引用 @微暗的小火发表的:
能不能亮我上去

你还想亮，知识学到不上不下的人是最有气势的，最能看透一切的。
你这种还是好好学术，做做研究，然后接受大众在那些不上不下的人地引导下痛心疾首的批评。
智力不行的人永远搞不懂用无根据的东西揭露骗局和用事实揭露骗局的有什么区别。

晨

晨风之刃

5 年多

引用 @微暗的小火发表的:
能不能亮我上去

2333 这只是一个二次方的回归呀而且因为数据真的不多拿出了两年的数据做回测可以翻一下我的回复记录正常这样的数据量是没法做支撑和判据的所有我也没有做casual inference.只是说疑似和贴合的太完美了//数据有点完美的不真实

晨

晨风之刃

5 年多

引用 @jiajianchengchu 发表的:
你还想亮，知识学到不上不下的人是最有气势的，最能看透一切的。
你这种还是好好学术，做做研究，然后接受大众在那些不上不下的人地引导下痛心疾首的批评。
智力不行的人永远搞不懂用无根据的东西揭露骗局和用事实揭露骗局的有什么区别。

智力不行真的是好大的帽子...
陈述现实中一组数据完美的过分....就被被您喷了
我也承认了这个数据没法做任何推断只是觉得有些诡异...
好大的口气先手批评教育...
况且T大也不至于给您俯瞰一切觉得其他人都是憨憨的勇气吧......况且也并非真的有天大的智力gap
理性讨论...

lebronzhao

5 年多

所以逻辑就是模型拟合越完美，数据越假？二次模型拟合亚马逊销售额数据也是99%，规模经济自然增长有时候就这么巧合。人类从自然界“拟合”出这么多规律，难道世界是假的？

晨

晨风之刃

5 年多

引用 @lebronzhao 发表的:
所以逻辑就是模型拟合越完美，数据越假？二次模型拟合亚马逊销售额数据也是99%，规模经济自然增长有时候就这么巧合。人类从自然界“拟合”出这么多规律，难道世界是假的？

所以说可能是阿里内部以一定的方法论制定了销售额的kpi～然后再执行2333
不过我们都是外人企业内部的事情不得而知

wangjeffree

5 年多

引用 @晨风之刃发表的:
给铁子们通俗的解释一下：就是淘宝近十年的销售数据完美拟合一个以年份为变量的方程。然后用这个方程预测去年和今年的销售额基本一致。如果是自然搜集或者产生的数据不应该这么完美，所以推断淘宝对自己的销售额有修正或注水。

可以这么给外行解释R方，比如我没说阿里肯定造假，我只是用数据证明了阿里有99.93%的可能性造假。🐶

IamGaffey

5 年多

引用 @晨风之刃发表的:
所以说可能是阿里内部以一定的方法论制定了销售额的kpi～然后再执行2333
不过我们都是外人企业内部的事情不得而知

被打脸了就别嘴硬。

inboyg

5 年多

引用 @Kalok 发表的:
这拟合度真的高，做实验的话得高兴坏了

而且不是百分之百而是99.94%，作为对于有些学科，这个作为实验结果那这篇SCI很可能稳了，当然对于还有一些学科，这个数据可能因为过于好看受到审稿人的质疑

虎

虎扑JR0470769945

5 年多

引用 @刚看篮球3 发表的:
不懂就问，为什么恰恰做到这个数据，这个数据对阿里的好处是啥？比如既然是作假，卫星放的更大一点不好吗？为啥要恰恰符合这个函数

因为事先确定增长率，然后再用数据拟合。这个前定的“增长率”多半跟股权回报有关，上市公司最重视的东西

huzefunb

5 年多

不要把别人当傻子，首先楼主的逻辑是因为拟合地过于完美，所以数据造假，这不一定成立，有可能是预先设计了这个kpi然后双十一实现了这个目标。其次，上市公司的账都要经过严格审计，如果被发现造假，后果不堪设想，阿里完全没有必要去冒这个险

八

八毛钱买宝马

5 年多

引用 @弄布灵清发表的:
恭喜你答对了阿里是上市公司如果数据造假可以申请索赔可以去美国起诉了否则等帖子火了等着收阿里法律部的律师信吧

什么几把都律师信，你以为律师信那么好发？且不说人家通篇文章引用历史真实数据做出来的模型得出一个合理的结论，并不是胡编乱造的。再者你当阿里傻吗？这时候发律师信，不就证明了心虚了？偌大的阿里巴巴，如果公关部就这水平，说出来谁信？

八

八毛钱买宝马

5 年多

引用 @巴拉之熊熊发表的:
天猫淘宝的店铺的双11优惠活动在双11前早就确定了，怎么可能说变就变，每一笔优惠都需要公司老板或者总经理签批的，店铺运营的人了没这个权力，淘宝的人更没有，除非钱由淘宝补贴

这不简单？每个时段都有一批优惠券抽奖，放多点优惠券出来不就行了

虎

虎扑用户652303

5 年多

引用 @骅哥带你飞发表的:
作为统计学生，想借个楼对这个拟合度r²为0.99的问题发表一下自己的看法，其实美国黑色星期五在三次线性回归的情况下，也是基本完全拟合的。这说明什么了呢，当然并不是因为中美的数据都造假，而是因为在这种情况下，一定自然的增长曲线本来就是符合多项式曲线的，也即泰勒展开式所示——多项式函数分布可以近似一切函数分布。

只是都想弄的稳定增长罢了

街

街上的

5 年多

都没学过吗？这种增长式的曲线找个参数拟合不是很简单吗？这有什么问题吗？

虎

虎扑用户607470

5 年多

第一，样本量很小，只有10个样本。而一个三次回归分析模型就有4个参数。因此，拟合优度就不会太差。十年？似乎是一个好长的时间，但是，这是年度数据，也就10个数而已。

第二，销售额是一个很大的数字，他的年度增长率，会随着销售额的增加，越来越稳定。类似的现象也发生在，例如，GDP，人口总数增长等场景。任何统计数据，只要他越来越大，他的变化率就会越来越稳定。否则这个世界就要爆炸了。很大的绝对数，相对稳定的增长率，让绝对数看起来很有规矩。

第三，一个更好的，看这个数据的方法是看年度增长率。纯技术角度讲，这样的时间序列数据更可能平稳。增长率也有很好的实际业务含义。从增长率看，尤其是最近五年的年度增长率。淘宝销售额的年度增长率，稳步下降，略有起伏，正常得不能再正常。

第四，如果，淘宝销售额，在这么大的体量下，起伏波动很大，那倒是奇了怪，那才值得关注，那一定出问题了。