大数据分析和常用的统计学分析有和不同

m
microsat
楼主 (北美华人网)
请问大数据分析和常用的数据分析有和不同? 常用的数据分析:t test, chisquare test, clustering, ANOVA
如果用在大数据上,需要做哪些改变? 或者根本无需改变。大数据分析,其实就是常见的数据分析(软件一样,工具也一样,就是花费的计算时间长一点罢了)

p
pwwp
回复 1楼microsat的帖子
raw data和sample data?
我不懂,就是直觉。
C
Cumberbitch
你是在上课吗还是什么? 每过几天就要发帖问一些这种问题
t
twocents88
大数据是无脑分析,统计是专业分析。
l
lolila368
大数据就是个噱头 大数据也是数据啊
m
machi
国内所谓的大数据,就是噱头,特指对人无所不在的监控。
美国的大数据概念指的是4个V,具体哪四个V,自己去搜。 大数据大部分时候用来做描述性分析,拿到的数据很多时候是某个时段的population。统计分析拿到的数据是sample,需要用sample信息去infer population。
i
ivoryzz
回复 1楼microsat的帖子
传统统计用的是sample 做inference 给population 大数据就是已经是全体population 了 所以结果不用在infer 了 这些细微的概念工作中没有什么用 除了面试有点用
h
hzlcyy
觉得大数据分析重点在取得数据,数据取到后的分析就很简单
l
lolila368
国内所谓的大数据,就是噱头,特指对人无所不在的监控。
美国的大数据概念指的是4个V,具体哪四个V,自己去搜。 大数据大部分时候用来做描述性分析,拿到的数据很多时候是某个时段的population。统计分析拿到的数据是sample,需要用sample信息去infer population。
machi 发表于 2022-01-27 12:00

就是大数据的猜你喜欢是用一个时间段的population来预测未来的population和未来的时间段 而不像传统分析那样需要从里面sample?
家有小可乐
我理解的统计分析更注重过程的合理性,有非常多的前提假设,在理论推导过程中论证结果的合理性。但是大数据更关注结果的准确性。比如多重共线,统计里会专门提已经对应的解决方式。如果把分钟过程看成是机器,统计分析需要严格对待放入机器的材料以及材料加工的流程合理性,但后者并不管材料是什么,是否符合要求,都一股脑往机器里面扔,只要做出来东西长得像就行。
z
zzsummer
Chisquare? 这也能大数据?
c
cici159
很多大数据分析和统计没有什么关系。很多时候也就是画画图找找trend.
b
badgerbadger
Chisquare? 这也能大数据?
zzsummer 发表于 2022-01-27 12:58

lz还是好好先回去上课吧
b
bluesunrise
不管是大数据还是小数据都可以做统计分析,在统计方法上没什么不同。 大数据主要是storage, process, productionalize 需要特定的tools 和 infra,产生和 使用大数据先要把这些特定的infra 造好, 不仅仅是弄个统计分析那么简单。
C
Cath226
大数据好几种方向。 一种是数据贼大,搞machine learning,做prediction。很多方法没法做inference,没有什么hypothesis要test,但是预测很准。 当然,这种情况通常还得伴随engineering,infra。 一种是数据复杂,要做的inference特别多。可能sequential,可能nested,可能。。。你一下子要做一万个hypothesis testing,就要控制FDR之类的,跟你做一个single test是不一样的,会多出很多问题。 反正各种情况大家都可以叫自己big data。也没人真的给big data下定义。
c
chicot
你是在上课吗还是什么? 每过几天就要发帖问一些这种问题
Cumberbitch 发表于 2022-01-27 11:23

估计是英语实在不好,一般大家作业都在quora上找答案的。 也可能编乎的答案抄的人太多了,跑这大妈网站找答案估计就算不专业,起码不plagiarism。
m
microsat
大数据好几种方向。 一种是数据贼大,搞machine learning,做prediction。很多方法没法做inference,没有什么hypothesis要test,但是预测很准。 当然,这种情况通常还得伴随engineering,infra。 一种是数据复杂,要做的inference特别多。可能sequential,可能nested,可能。。。你一下子要做一万个hypothesis testing,就要控制FDR之类的,跟你做一个single test是不一样的,会多出很多问题。 反正各种情况大家都可以叫自己big data。也没人真的给big data下定义。
Cath226 发表于 2022-01-27 13:38

从大家的讨论中,得到了一些启发。
大数据分析的第一步就是抽样 等抽样完成后,就可以用传统统计方法来统计学分析了。
这个抽样非常重要。抽样的技巧也很多。
m
microsat
Chisquare? 这也能大数据?
zzsummer 发表于 2022-01-27 12:58

可以抽样后,再用chisquare。比如打了boost的病人是否再次感染新冠病毒的风险要低。 你可以用抽样用chisquare来完成。
这个抽样非常重要。
当然,不用抽样,也可以。我正在研究这个不用抽样的几十个T的数据,进行chisquare .
i
ivoryzz
回复 18楼microsat的帖子
几十个T 数据做 kai Sq test 说说思路?
家有小可乐
楼主你可以试着拿几本经典的英文书一遍两遍读,刚开始不理解多来几次慢慢就会懂,然后再合上书思考,书上东西变成你的东西就会豁然开朗。有时候自己google search多读读相关文章应该比在这发帖要有效率有用些。
m
microsat
回复 18楼microsat的帖子
几十个T 数据做 kai Sq test 说说思路?
ivoryzz 发表于 2022-01-27 14:11

stratification
m
microsat
楼主你可以试着拿几本经典的英文书一遍两遍读,刚开始不理解多来几次慢慢就会懂,然后再合上书思考,书上东西变成你的东西就会豁然开朗。有时候自己google search多读读相关文章应该比在这发帖要有效率有用些。
家有小可乐 发表于 2022-01-27 14:14

其实楼里的好几位,已经把大数据讲得很清楚了。书上也无非是这些东东。
n
narsecho
从大家的讨论中,得到了一些启发。
大数据分析的第一步就是抽样 等抽样完成后,就可以用传统统计方法来统计学分析了。
这个抽样非常重要。抽样的技巧也很多。
microsat 发表于 2022-01-27 14:07

谁说第一步是sampling了?前几天你不是还讨论一切归为rmse么,怎么一下子对大数据又这么外行了呢?
家有小可乐
回复 22楼microsat的帖子
那就等着群友每次解决你的问题吧。真是一只倔强的鸭子,嘴硬。