国内所谓的大数据,就是噱头,特指对人无所不在的监控。 美国的大数据概念指的是4个V,具体哪四个V,自己去搜。 大数据大部分时候用来做描述性分析,拿到的数据很多时候是某个时段的population。统计分析拿到的数据是sample,需要用sample信息去infer population。 machi 发表于 2022-01-27 12:00
Chisquare? 这也能大数据?zzsummer 发表于 2022-01-27 12:58
你是在上课吗还是什么? 每过几天就要发帖问一些这种问题 Cumberbitch 发表于 2022-01-27 11:23
大数据好几种方向。 一种是数据贼大,搞machine learning,做prediction。很多方法没法做inference,没有什么hypothesis要test,但是预测很准。 当然,这种情况通常还得伴随engineering,infra。 一种是数据复杂,要做的inference特别多。可能sequential,可能nested,可能。。。你一下子要做一万个hypothesis testing,就要控制FDR之类的,跟你做一个single test是不一样的,会多出很多问题。 反正各种情况大家都可以叫自己big data。也没人真的给big data下定义。 Cath226 发表于 2022-01-27 13:38
回复 18楼microsat的帖子 几十个T 数据做 kai Sq test 说说思路? ivoryzz 发表于 2022-01-27 14:11
楼主你可以试着拿几本经典的英文书一遍两遍读,刚开始不理解多来几次慢慢就会懂,然后再合上书思考,书上东西变成你的东西就会豁然开朗。有时候自己google search多读读相关文章应该比在这发帖要有效率有用些。家有小可乐 发表于 2022-01-27 14:14
从大家的讨论中,得到了一些启发。 大数据分析的第一步就是抽样 等抽样完成后,就可以用传统统计方法来统计学分析了。 这个抽样非常重要。抽样的技巧也很多。 microsat 发表于 2022-01-27 14:07
如果用在大数据上,需要做哪些改变? 或者根本无需改变。大数据分析,其实就是常见的数据分析(软件一样,工具也一样,就是花费的计算时间长一点罢了)
raw data和sample data?
我不懂,就是直觉。
美国的大数据概念指的是4个V,具体哪四个V,自己去搜。 大数据大部分时候用来做描述性分析,拿到的数据很多时候是某个时段的population。统计分析拿到的数据是sample,需要用sample信息去infer population。
传统统计用的是sample 做inference 给population 大数据就是已经是全体population 了 所以结果不用在infer 了 这些细微的概念工作中没有什么用 除了面试有点用
就是大数据的猜你喜欢是用一个时间段的population来预测未来的population和未来的时间段 而不像传统分析那样需要从里面sample?
lz还是好好先回去上课吧
估计是英语实在不好,一般大家作业都在quora上找答案的。 也可能编乎的答案抄的人太多了,跑这大妈网站找答案估计就算不专业,起码不plagiarism。
从大家的讨论中,得到了一些启发。
大数据分析的第一步就是抽样 等抽样完成后,就可以用传统统计方法来统计学分析了。
这个抽样非常重要。抽样的技巧也很多。
可以抽样后,再用chisquare。比如打了boost的病人是否再次感染新冠病毒的风险要低。 你可以用抽样用chisquare来完成。
这个抽样非常重要。
当然,不用抽样,也可以。我正在研究这个不用抽样的几十个T的数据,进行chisquare .
几十个T 数据做 kai Sq test 说说思路?
stratification
其实楼里的好几位,已经把大数据讲得很清楚了。书上也无非是这些东东。
谁说第一步是sampling了?前几天你不是还讨论一切归为rmse么,怎么一下子对大数据又这么外行了呢?
那就等着群友每次解决你的问题吧。真是一只倔强的鸭子,嘴硬。