有生物统计的姐妹吗?能帮忙看看这个数据怎么分析?

c
ccchhh
楼主 (北美华人网)
我们在比较两组数据。 第一组数据是5000个样品,用的是A collection device. 第二组数据只有70个样品,用的是B collection device。 两组数据都是临床病人样品,都是检测一种东西。A的阳性率是4.2%, B 的阳性率是 2.5%。请问:如何做统计意义的分析?想问两组数据是否具有统计意义差别? 我完全不懂统计,想请教大家!谢谢,就是有些clue,我去google也可以。 谢谢。
H
Highgirl
说的太模糊啦。第一,第二组数据是什么样的数据,没说清楚。
y
yikecate
这种 highly unbalanced cohort sizes 完全不知道该肿末办 坐等统计大牛指点
z
zhaojie2005
我的感觉,没法比。。。。。
根据现有的信息, 数据组和 collection device cofounded, 即便有区别,也有可能是分组造成的也有可能 device 造成的。要比两组的阳性率,就一个data point :4.2% 和2.5%, 你直接看谁大谁小就行了, 没什么统计方法。假设这是你知道的所有的信息,而且想比较 A, B的区别。 做 Sample1: 比如说1000 个样品, 每个样品用 A 测也有B测,算出阳性率; sample2: 1500个样品, A 测也有B测,算出阳性率;。。。 做30个往上最好,才能比较出A, B的difference。
n
nodark
Use chi square test. The p-value is < .00001. The result is significant at p < .05. 我们在比较两组数据。 第一组数据是5000个样品,用的是A collection device. 第二组数据只有70个样品,用的是B collection device。 两组数据都是临床病人样品,都是检测一种东西。A的阳性率是4.2%, B 的阳性率是 2.5%。请问:如何做统计意义的分析?想问两组数据是否具有统计意义差别? 我完全不懂统计,想请教大家!谢谢,就是有些clue,我去google也可以。 谢谢。
z
zhaojie2005
https://online.stat.psu.edu/stat414/node/268/
nekomimi 发表于 4/20/2020 6:14:46 PM


这个方法的前提是 第一组和第二组是用同样的方法测同样的东西(比如说某种病),第一组数据中阳性率(得病的) 和第二组数中阳性率有什么区别?
c
computer101
按two sample binomial z-test来算的话两者差异完全不significant 网站在这可以自己play around: https://epitools.ausvet.com.au/ztesttwo
c
ccchhh
说的太模糊啦。第一,第二组数据是什么样的数据,没说清楚。

Highgirl 发表于 4/20/2020 6:08:28 PM

我们做化验的,测的是 HPV。想比较第一组和第二组的 HPV positivity rate 是不是因为 collection device的差别而有统计差别。 我感觉我们这数据没法比,但不懂想请教一下班上大牛。
c
ccchhh





按two sample binomial z-test来算的话两者差异完全不significant
网站在这可以自己play around: https://epitools.ausvet.com.au/ztesttwo
computer101 发表于 4/20/2020 6:23:32 PM

这位美美厉害,先谢谢,一会自己研究一下。 太感谢!!!
w
weiyixia
看看是不是normal. t-test就可以。
c
computer101
当然70个样本用Z-test可能有一些不严谨,不过因为p-value如此之大(0.48),不管用什么test应该结果都差不多的。楼上有位姐妹用chi-square test不过没给细节,不是很清楚为啥结果这么离谱
z
zhaojie2005

我们做化验的,测的是 HPV。想比较第一组和第二组的 HPV positivity rate 是不是因为 collection device的差别而有统计差别。 我感觉我们这数据没法比,但不懂想请教一下班上大牛。

ccchhh 发表于 4/20/2020 6:26:02 PM


你要比的是A, B的difference。 不是假设A, B相同,第一组和第二组的阳性率相等不相等。chi-square 和 t-test都不work, 我的意见only
c
computer101


你要比的是A, B的difference。 不是假设A, B相同,第一组和第二组的阳性率相等不相等。chi-square 和 t-test都不work, 我的意见only

zhaojie2005 发表于 4/20/2020 6:30:16 PM

其实这个没啥区别, test P(A) = P(B) or not, 和 test diff = P(A) - P(B) = 0 or not 从统计上来说一样的,因为A和B样本是独立的,如果A和B样本之间有correlation就不好算了
z
zhaojie2005

其实这个没啥区别, test P(A) = P(B) or not, 和 test diff = P(A) - P(B) = 0 or not 从统计上来说一样的,因为A和B样本是独立的,如果A和B样本之间有correlation就不好算了

computer101 发表于 4/20/2020 6:33:05 PM


区别在于, P(positive/group1)=p(positive/group2) 和 p( positive/A) =p(positive/B)不是一个东西。 group 和device cofounded, 即便有不同,也不能说是group 造成的还是device造成的
i
initium
这两组用的device不同,但是assay是一样的吗?这是一个根本的问题。
d
didiguo2
回复1楼ccchhh 要先match一下,用propensity score或者一些基本的信息让a和b组的人match,可以1比1match或者n比1match,match以后,结果是a组出70个和b组疾病史,demongraphic类似的人和b组70个人比较,match的变量是所有可能影响y的或者通过ab组别影响y的变量。这样a组和b组比较的人都是除了ab组别之外类似的人。当然如果n比1match就是140a组的跟70个b组的或者更多。等match完以后,需要看几个statistic确保match的质量好,然后直接把match完选出的两组样本放在一起,取决于y是不是连续的,连续就来个z或者t独立样本检验,如果y是非连续的就是chisquare。match那一步做的就是选取有类似质量背景的样本做之后的比较,这样就不需要把5000个和70个比了。
c
computer101


区别在于, P(positive/group1)=p(positive/group2) 和 p( positive/A) =p(positive/B)不是一个东西。 group 和device cofounded, 即便有不同,也不能说是group 造成的还是device造成的

zhaojie2005 发表于 4/20/2020 6:38:17 PM

楼主没有提那5000个和70个样本不一样吧?“两组数据都是临床病人样品,都是检测一种东西”,在没有额外信息的情况下假设iid貌似没问题? propensity score matching的话需要楼主实验室收集这5070个测试者的信息,如果是几十上百个测试者估计这个数据都会有,如果是直接5000个样本,我表示怀疑…… 我那个分析确实很简略,assumption也很strong, 不过除非这两组样本有非常大的不同,我不觉得这个结论会有多少变化
h
healthy
回复1楼ccchhh 要先match一下,用propensity score或者一些基本的信息让a和b组的人match,可以1比1match或者n比1match,match以后,结果是a组出70个和b组疾病史,demongraphic类似的人和b组70个人比较,match的变量是所有可能影响y的或者通过ab组别影响y的变量。这样a组和b组比较的人都是除了ab组别之外类似的人。当然如果n比1match就是140a组的跟70个b组的或者更多。等match完以后,需要看几个statistic确保match的质量好,然后直接把match完选出的两组样本放在一起,取决于y是不是连续的,连续就来个z或者t独立样本检验,如果y是非连续的就是chisquare。match那一步做的就是选取有类似质量背景的样本做之后的比较,这样就不需要把5000个和70个比了。
didiguo2 发表于 2020-04-20 18:50

sample size差这么大,怎么会是match design啊?
P
Pangpang

我们在比较两组数据。 第一组数据是5000个样品,用的是A collection device. 第二组数据只有70个样品,用的是B collection device。 两组数据都是临床病人样品,都是检测一种东西。A的阳性率是4.2%, B 的阳性率是 2.5%。请问:如何做统计意义的分析?想问两组数据是否具有统计意义差别? 我完全不懂统计,想请教大家!谢谢,就是有些clue,我去google也可以。 谢谢。

ccchhh 发表于 4/20/2020 5:36:23 PM


最好直接贴英文,中文看不太懂。
B的2.5%阳性率不可能是observed from that 70 samples, since 70*2.5%=1.75。从你的中文叙述完全搞不清楚你想干啥?
风声边界0514
用 t test,就好了
c
chromium
看天书一般,看了一下脑子差点糊掉,可能烧了几百卡路里
t
timeflies2015
回复1楼ccchhh
要先match一下,用propensity score或者一些基本的信息让a和b组的人match,可以1比1match或者n比1match,match以后,结果是a组出70个和b组疾病史,demongraphic类似的人和b组70个人比较,match的变量是所有可能影响y的或者通过ab组别影响y的变量。这样a组和b组比较的人都是除了ab组别之外类似的人。当然如果n比1match就是140a组的跟70个b组的或者更多。等match完以后,需要看几个statistic确保match的质量好,然后直接把match完选出的两组样本放在一起,取决于y是不是连续的,连续就来个z或者t独立样本检验,如果y是非连续的就是chisquare。match那一步做的就是选取有类似质量背景的样本做之后的比较,这样就不需要把5000个和70个比了。

didiguo2 发表于 4/20/2020 6:50:40 PM

是的,样本数差异太大。确定哪个是control 哪个是placebo 后可以用propensity score 的 IPTW 或是 PS match, 之后可以 two population percentage test. 要是样本太少可以试试bootstraping
c
ccchhh
这两组用的device不同,但是assay是一样的吗?这是一个根本的问题。
initium 发表于 4/20/2020 6:40:12 PM


当然是啊。如果连assay都不一样还咋比。
a
apple2april
ztest +1
c
ccchhh
楼上的姐妹你们的讨论我大约看懂了一些,不是全部。我进一步解释一下。 这两种collection device其实是two different collection method of same collection device. 为了快速问问大家,我简化的说。本来也不是设计好的试验。只是临床的数据摆在那儿大头想利用分析一下。所以造成样品量差距很大。 A 是传统方法,所以样本量巨大。B只有一小撮人使用,所以样品相对小很多。 我随便写了一个阳性率,具体数字没有意义。我就是想知道能不能说两者阳性率是有statistically difference. 怎么分析。
c
ccchhh
用 t test,就好了
风声边界0514 发表于 4/20/2020 7:17:23 PM


t test不是compare mean of two groups吗? 这里没有mean啊。
熊十三
感觉如果data是normal distributed,t-test应该可以
c
ccchhh
Pearson's Chi-square Test 怎么样?
o
oqo
楼上的姐妹你们的讨论我大约看懂了一些,不是全部。我进一步解释一下。 这两种collection device其实是two different collection method of same collection device. 为了快速问问大家,我简化的说。本来也不是设计好的试验。只是临床的数据摆在那儿大头想利用分析一下。所以造成样品量差距很大。 A 是传统方法,所以样本量巨大。B只有一小撮人使用,所以样品相对小很多。 我随便写了一个阳性率,具体数字没有意义。我就是想知道能不能说两者阳性率是有statistically difference. 怎么分析。
ccchhh 发表于 4/20/2020 8:50:42 PM


有没有以前的研究比较过两种device? 同样的样品用两种方法测出来结果是否一致? 如果不一致的话你这里问的问题没有意义
c
ccchhh


有没有以前的研究比较过两种device?
同样的样品用两种方法测出来结果是否一致?
如果不一致的话你这里问的问题没有意义

oqo 发表于 4/20/2020 9:13:08 PM


有些公司内部试验是不一致。但我的焦点是我们自己的数据能否得出任何结论?