有生物统计的姐妹吗？能帮忙看看这个数据怎么分析？

大约 5 年

我的感觉，没法比。。。。。
根据现有的信息，数据组和 collection device cofounded, 即便有区别，也有可能是分组造成的也有可能 device 造成的。要比两组的阳性率，就一个data point ：4.2% 和2.5%, 你直接看谁大谁小就行了，没什么统计方法。假设这是你知道的所有的信息，而且想比较 A， B的区别。做 Sample1: 比如说1000 个样品，每个样品用 A 测也有B测，算出阳性率； sample2： 1500个样品， A 测也有B测，算出阳性率；。。。做30个往上最好，才能比较出A， B的difference。

nodark

大约 5 年

Use chi square test. The p-value is < .00001. The result is significant at p < .05. 我们在比较两组数据。第一组数据是5000个样品，用的是A collection device. 第二组数据只有70个样品，用的是B collection device。两组数据都是临床病人样品，都是检测一种东西。A的阳性率是4.2%, B 的阳性率是 2.5%。请问：如何做统计意义的分析？想问两组数据是否具有统计意义差别？我完全不懂统计，想请教大家！谢谢，就是有些clue，我去google也可以。谢谢。

大约 5 年

https://online.stat.psu.edu/stat414/node/268/
nekomimi 发表于 4/20/2020 6:14:46 PM

这个方法的前提是第一组和第二组是用同样的方法测同样的东西（比如说某种病），第一组数据中阳性率（得病的）和第二组数中阳性率有什么区别？

大约 5 年

按two sample binomial z-test来算的话两者差异完全不significant 网站在这可以自己play around： https://epitools.ausvet.com.au/ztesttwo

大约 5 年

说的太模糊啦。第一，第二组数据是什么样的数据，没说清楚。

Highgirl 发表于 4/20/2020 6:08:28 PM

我们做化验的，测的是 HPV。想比较第一组和第二组的 HPV positivity rate 是不是因为 collection device的差别而有统计差别。我感觉我们这数据没法比，但不懂想请教一下班上大牛。

大约 5 年

按two sample binomial z-test来算的话两者差异完全不significant
网站在这可以自己play around： https://epitools.ausvet.com.au/ztesttwo
computer101 发表于 4/20/2020 6:23:32 PM

这位美美厉害，先谢谢，一会自己研究一下。太感谢！！！

weiyixia

大约 5 年

看看是不是normal. t-test就可以。

大约 5 年

当然70个样本用Z-test可能有一些不严谨，不过因为p-value如此之大（0.48），不管用什么test应该结果都差不多的。楼上有位姐妹用chi-square test不过没给细节，不是很清楚为啥结果这么离谱

大约 5 年

我们做化验的，测的是 HPV。想比较第一组和第二组的 HPV positivity rate 是不是因为 collection device的差别而有统计差别。我感觉我们这数据没法比，但不懂想请教一下班上大牛。

ccchhh 发表于 4/20/2020 6:26:02 PM

你要比的是A， B的difference。不是假设A， B相同，第一组和第二组的阳性率相等不相等。chi-square 和 t-test都不work，

我的意见only

大约 5 年

你要比的是A， B的difference。不是假设A， B相同，第一组和第二组的阳性率相等不相等。chi-square 和 t-test都不work，我的意见only

zhaojie2005 发表于 4/20/2020 6:30:16 PM

其实这个没啥区别, test P(A) = P(B) or not, 和 test diff = P(A) - P(B) = 0 or not 从统计上来说一样的，因为A和B样本是独立的，如果A和B样本之间有correlation就不好算了

大约 5 年

其实这个没啥区别, test P(A) = P(B) or not, 和 test diff = P(A) - P(B) = 0 or not 从统计上来说一样的，因为A和B样本是独立的，如果A和B样本之间有correlation就不好算了

computer101 发表于 4/20/2020 6:33:05 PM

区别在于， P（positive/group1）=p(positive/group2）和 p( positive/A) =p(positive/B)不是一个东西。 group 和device cofounded，即便有不同，也不能说是group 造成的还是device造成的

initium

大约 5 年

这两组用的device不同，但是assay是一样的吗？这是一个根本的问题。

didiguo2

大约 5 年

回复1楼ccchhh 要先match一下，用propensity score或者一些基本的信息让a和b组的人match，可以1比1match或者n比1match，match以后，结果是a组出70个和b组疾病史，demongraphic类似的人和b组70个人比较，match的变量是所有可能影响y的或者通过ab组别影响y的变量。这样a组和b组比较的人都是除了ab组别之外类似的人。当然如果n比1match就是140a组的跟70个b组的或者更多。等match完以后，需要看几个statistic确保match的质量好，然后直接把match完选出的两组样本放在一起，取决于y是不是连续的，连续就来个z或者t独立样本检验，如果y是非连续的就是chisquare。match那一步做的就是选取有类似质量背景的样本做之后的比较，这样就不需要把5000个和70个比了。

大约 5 年

区别在于， P（positive/group1）=p(positive/group2）和 p( positive/A) =p(positive/B)不是一个东西。 group 和device cofounded，即便有不同，也不能说是group 造成的还是device造成的

zhaojie2005 发表于 4/20/2020 6:38:17 PM

楼主没有提那5000个和70个样本不一样吧？“两组数据都是临床病人样品，都是检测一种东西”，在没有额外信息的情况下假设iid貌似没问题？ propensity score matching的话需要楼主实验室收集这5070个测试者的信息，如果是几十上百个测试者估计这个数据都会有，如果是直接5000个样本，我表示怀疑…… 我那个分析确实很简略，assumption也很strong, 不过除非这两组样本有非常大的不同，我不觉得这个结论会有多少变化

healthy

大约 5 年

回复1楼ccchhh 要先match一下，用propensity score或者一些基本的信息让a和b组的人match，可以1比1match或者n比1match，match以后，结果是a组出70个和b组疾病史，demongraphic类似的人和b组70个人比较，match的变量是所有可能影响y的或者通过ab组别影响y的变量。这样a组和b组比较的人都是除了ab组别之外类似的人。当然如果n比1match就是140a组的跟70个b组的或者更多。等match完以后，需要看几个statistic确保match的质量好，然后直接把match完选出的两组样本放在一起，取决于y是不是连续的，连续就来个z或者t独立样本检验，如果y是非连续的就是chisquare。match那一步做的就是选取有类似质量背景的样本做之后的比较，这样就不需要把5000个和70个比了。
didiguo2 发表于 2020-04-20 18:50

sample size差这么大，怎么会是match design啊？

Pangpang

大约 5 年

我们在比较两组数据。第一组数据是5000个样品，用的是A collection device. 第二组数据只有70个样品，用的是B collection device。两组数据都是临床病人样品，都是检测一种东西。A的阳性率是4.2%, B 的阳性率是 2.5%。请问：如何做统计意义的分析？想问两组数据是否具有统计意义差别？我完全不懂统计，想请教大家！谢谢，就是有些clue，我去google也可以。谢谢。

ccchhh 发表于 4/20/2020 5:36:23 PM

最好直接贴英文，中文看不太懂。
B的2.5%阳性率不可能是observed from that 70 samples, since 70*2.5%=1.75。从你的中文叙述完全搞不清楚你想干啥？

风

风声边界0514

大约 5 年

用 t test,就好了

chromium

大约 5 年

看天书一般，看了一下脑子差点糊掉，可能烧了几百卡路里

timeflies2015

大约 5 年

回复1楼ccchhh
要先match一下，用propensity score或者一些基本的信息让a和b组的人match，可以1比1match或者n比1match，match以后，结果是a组出70个和b组疾病史，demongraphic类似的人和b组70个人比较，match的变量是所有可能影响y的或者通过ab组别影响y的变量。这样a组和b组比较的人都是除了ab组别之外类似的人。当然如果n比1match就是140a组的跟70个b组的或者更多。等match完以后，需要看几个statistic确保match的质量好，然后直接把match完选出的两组样本放在一起，取决于y是不是连续的，连续就来个z或者t独立样本检验，如果y是非连续的就是chisquare。match那一步做的就是选取有类似质量背景的样本做之后的比较，这样就不需要把5000个和70个比了。

didiguo2 发表于 4/20/2020 6:50:40 PM

是的，样本数差异太大。确定哪个是control 哪个是placebo 后可以用propensity score 的 IPTW 或是 PS match, 之后可以 two population percentage test. 要是样本太少可以试试bootstraping

大约 5 年

这两组用的device不同，但是assay是一样的吗？这是一个根本的问题。
initium 发表于 4/20/2020 6:40:12 PM

当然是啊。如果连assay都不一样还咋比。

apple2april

大约 5 年

ztest +1

大约 5 年

楼上的姐妹你们的讨论我大约看懂了一些，不是全部。我进一步解释一下。这两种collection device其实是two different collection method of same collection device. 为了快速问问大家，我简化的说。本来也不是设计好的试验。只是临床的数据摆在那儿大头想利用分析一下。所以造成样品量差距很大。 A 是传统方法，所以样本量巨大。B只有一小撮人使用，所以样品相对小很多。我随便写了一个阳性率，具体数字没有意义。我就是想知道能不能说两者阳性率是有statistically difference. 怎么分析。

大约 5 年

用 t test,就好了
风声边界0514 发表于 4/20/2020 7:17:23 PM

t test不是compare mean of two groups吗？这里没有mean啊。

熊

熊十三

大约 5 年

感觉如果data是normal distributed，t-test应该可以

大约 5 年

Pearson's Chi-square Test 怎么样？

oqo

大约 5 年

楼上的姐妹你们的讨论我大约看懂了一些，不是全部。我进一步解释一下。这两种collection device其实是two different collection method of same collection device. 为了快速问问大家，我简化的说。本来也不是设计好的试验。只是临床的数据摆在那儿大头想利用分析一下。所以造成样品量差距很大。 A 是传统方法，所以样本量巨大。B只有一小撮人使用，所以样品相对小很多。我随便写了一个阳性率，具体数字没有意义。我就是想知道能不能说两者阳性率是有statistically difference. 怎么分析。
ccchhh 发表于 4/20/2020 8:50:42 PM

有没有以前的研究比较过两种device? 同样的样品用两种方法测出来结果是否一致? 如果不一致的话你这里问的问题没有意义