ECC Error的话,问题严重不?有多严重?

q
quincycenter
楼主 (未名空间)

ECC Error的话,问题严重不?有多严重?

ASUS C246 motherboard, Gigabyte C246 motherboard,

CPU: 试了好几个:Pentium 5400, pentium 5400T, i3-8100T, Xeon 2174G, Xeon
2126G
全部支持ECC

Memory:

Timetec Hynix IC 64GB KIT (4x16GB) DDR4 2400MHz PC4-19200 Unbuffered ECC 1.
2V CL17 2Rx8 Dual Rank 288 Pin UDIMM Server Memory RAM
https://www.amazon.com/Timetec-2400MHz-PC4-19200-Unbuffered-Upgrade/dp/
B07NQ2J272

4x 16GB

用memtest86 8.3 USB bootable test memory.

发现ECC feature不稳定。

常常出ECC error.
但是对比测试下,很难确定是主板,还是CPU,还是memory的问题。
比如:只各插一对: 2x16GB,
在两对slot上分别测试,都能通过,4条一起插,就会出ECC Error.

有时出了ECC Error, 换了CPU,重测,又不出了。

有时拔内存下来重插一下,又好了。

有时某条内存单独测,在这个板子上有问题。换个slot或换块板子,又不出问题了。

总之,感觉接触不好似的。很难有稳定的结果。无法判断主板,还是CPU,还是memory
有问题。

有一种可能是接触不稳定。

请问可能是这个原因吗?

这些主板,CPU, 用普通 非ECC 内存测,一点问题没有,全部能通过。
只有在测ECC memory时才出ECC error.

我手头也没有的别的ECC memory 对比测试。

这种ECC error的问题有多严重呢?
请高手指教。

ECC Error 的情况 很多,我就贴一个有代表性的图吧。

O
OofW

你这表述一团乱麻啊

首先没有i3-5400/T这种东西,我估计你说的是Pentium G5400/T?

其次这前面几个非Xeon的 U肯定不支持ECC 啊,要不然Xeon卖给谁去?Xeon最大的卖点就是支持ECC

正常的用法是 Xeon + C246主板 + ECC内存

几个非Xeon的 U虽然C246主板能点亮不代表所有功能都能实现,想ECC 正常乖乖用回
Xeon吧

q
quincycenter


【 在 OofW (OofW) 的大作中提到: 】
: 你这表述一团乱麻啊
: 首先没有i3-5400/T这种东西,我估计你说的是Pentium G5400/T?
: 其次这前面几个非Xeon的 U肯定不支持ECC 啊,要不然Xeon卖给谁去?Xeon最大的卖点
: 就是支持ECC
: 正常的用法是 Xeon + C246主板 + ECC内存
: 几个非Xeon的 U虽然C246主板能点亮不代表所有功能都能实现,想ECC 正常乖乖用回: Xeon吧

不好意思,的确是typo.
应该是pentium G5400 and pentium G5400T
已更正

我说的这几款CPU, 从pentium 到core i3, 都的确是支持ECC的。
这些都是低端桌面CPU, 高端的桌面CPU反而不支持ECC。
你查查就知道了。
以前的确只有Xeon支持ECC, 不过,至少从8代起,pentium 和i3 也支持了。

试了xeon了,效果一样,也有ECC error.
跟用哪种CPU 关系不大。貌似跟主板和内存关系大些。不过,仍然很难确定。
目前还在测试中。

p
pptwo

电源一样吗?

要不然就是杂牌内存的问题,ebay上的拆机内存都没见过这么多错。

【 在 quincycenter (quincycenter) 的大作中提到: 】
: ECC Error的话,问题严重不?有多严重?
: ASUS C246 motherboard, Gigabyte C246 motherboard,
: CPU: 试了好几个:Pentium 5400, pentium 5400T, i3-8100T, Xeon 2174G, Xeon
: 2126G
: 全部支持ECC
: Memory:
: Timetec Hynix IC 64GB KIT (4x16GB) DDR4 2400MHz PC4-19200 Unbuffered ECC 1.
: 2V CL17 2Rx8 Dual Rank 288 Pin UDIMM Server Memory RAM
: https://www.amazon.com/Timetec-2400MHz-PC4-19200-Unbuffered-Upgrade/dp/
: B07NQ2J272
: ...................

q
quincycenter


三个主板,三个不同电源,同时测试。ECC Error出现的概率都差不多。
可以肯定跟CPU没关系,跟电源没关系。

目前看来,跟主板貌似有一定关系。不过,内存不稳定的可能性也有。
不过,这款内存在amazon上的review很好,fakespot也验证过了是A的。

newegg 上也有, 不过没有review
https://www.newegg.com/p/1X5-0071-00040?Description=Timetec%20Hynix%20IC%
2064GB%20KIT%20%284x16GB%29%20DDR4%202400MHz%20PC4-19200%20Unbuffered%20ECC&cm_re=Timetec_Hynix_IC_64GB_KIT_%284x16GB%29_DDR4_2400MHz_PC4-19200_
Unbuffered_ECC-_-9SIA56XABG0580-_-Product

我ASUS 和gigabyte 的C246 主板各有两块,还在测试验证中

最不可思议的是:
同一套setup, 一对内存插在slot1,3上没问题。
另一对内存插在slot2,4上没问题(1,3当然不在)。两次测都能通过。
可是同时插四条,就有问题了。

【 在 pptwo (pp) 的大作中提到: 】
: 电源一样吗?
: 要不然就是杂牌内存的问题,ebay上的拆机内存都没见过这么多错。

O
OofW

哦,这几个支持ECC 确实出乎意料

现在看来内存跟主板兼容性问题可能性大一些

这种情况一般保守点都是上QVL list上的内存,比如http://www.asus.com/us/Commercial-Servers-Workstations/WS-C246-PRO/HelpDesk_QVL/

有些内存不支持上4 dimms,比如有些16GB条子可能主板就不支持你上4 条

【 在 quincycenter (quincycenter) 的大作中提到: 】
: 不好意思,的确是typo.
: 应该是pentium G5400 and pentium G5400T
: 已更正
: 我说的这几款CPU, 从pentium 到core i3, 都的确是支持ECC的。
: 这些都是低端桌面CPU, 高端的桌面CPU反而不支持ECC。
: 你查查就知道了。
: 以前的确只有Xeon支持ECC, 不过,至少从8代起,pentium 和i3 也支持了。
: 试了xeon了,效果一样,也有ECC error.
: 跟用哪种CPU 关系不大。貌似跟主板和内存关系大些。不过,仍然很难确定。
: 目前还在测试中。

l
localdisk

有问题的话内存要一条一条试。
l
localdisk

一般来说memory问题可能性最大。错误可能: 90% memory, 9%主板,1%其它。可以降
频试试。
q
quincycenter


多谢指教,目前的确在逐条,逐slot测试.
不过,令我不爽的是:
ASUS C246 这款,离CPU近的那两个内存slot, 不能单独work,
只插一条ECC内存的话,启动不了。(non ECC 内存却可以)
但是插一对或四个全插是可以启动的。
两个同型号主板都这样,估计是bios设计的glitch.

而gigabyte C246那款,格局与ASUS 几乎一模一样,
但四个内存slot每个都可以跟ECC memory 单独work,

初看好象gigabyte这款更好些。其实未必。
在四条全插的情况下,gigabyte这款会出ECC error.

ASUS虽然有两条不能单独work, 但四条全插的情况下,
貌似更稳定些。目前还在测试中。
4x16GB 全测完要16小时左右,比较耗时间。

【 在 OofW (OofW) 的大作中提到: 】
: 哦,这几个支持ECC 确实出乎意料
: 现在看来内存跟主板兼容性问题可能性大一些
: 这种情况一般保守点都是上QVL list上的内存,比如
: http://www.asus.com/us/Commercial-Servers-Workstations/WS-C246-PRO/HelpDesk_QVL/
: 有些内存不支持上4 dimms,比如有些16GB条子可能主板就不支持你上4 条

O
OofW

我比较同意楼上内存的问题比较大

首先这个牌子不怎么知名,品控什么都是未知数

其次海力士颗粒并不在主板的QVL 上

还是换三星的内存试试吧,比如Samsung m391a2k43bb1-crc

【 在 quincycenter (quincycenter) 的大作中提到: 】
: 多谢指教,目前的确在逐条,逐slot测试.
: 不过,令我不爽的是:
: ASUS C246 这款,离CPU近的那两个内存slot, 不能单独work,
: 只插一条ECC内存的话,启动不了。(non ECC 内存却可以)
: 但是插一对或四个全插是可以启动的。
: 两个同型号主板都这样,估计是bios设计的glitch.
: 而gigabyte C246那款,格局与ASUS 几乎一模一样,
: 但四个内存slot每个都可以跟ECC memory 单独work,
: 初看好象gigabyte这款更好些。其实未必。
: 在四条全插的情况下,gigabyte这款会出ECC error.
: ...................

m
mexican

问题出在ECC检测线路,检测逻辑是一长串异或门,信号从头跑到尾需要时间,主频太
高,时间不够的话,ECC检测线路就会报错。
Data没问题,所以你把ECC关掉系统运行正常。
你试了不同的内存条插槽配置,有的ECC正常,有的ECC报错,原因依然是ECC检测线路。

把主频降下来就能解决问题了。

q
quincycenter

感觉你说的有道理。
目前看来,Pentium G5400出ECC error的概率较小。
它是目前唯一一个能在我四个主板中,其中一个主板上,4条全插的情况下,
跑完16小时全部检测不出错的CPU
而同等条件下,i3 8100T, Xeon 2174G 都会出错。

可是G5400的频率是3.7GHz, Xeon 2174G 是3.8GHz, 差别并不大呀。
而8100T 的频率是3.1GHz,出错概率跟3.8G高频的Xeon 2174G 差不多。

反而是G5400目前看来最为稳定。

请问你说的“把主频降下来就能解决问题了”是什么意思?
是降CPU频率还是内存频率?

我对超率一窍不通,从来没改过任何频率。
这种ECC内存,是没有XMP的,只有缺省一种频率。
C246 chipset,也没CPU超率的选项。我也是只用缺省的。从来没调过任何参数。

请问“降频”是什么意思?

【 在 mexican (走神) 的大作中提到: 】
: 问题出在ECC检测线路,检测逻辑是一长串异或门,信号从头跑到尾需要时间,主频太
: 高,时间不够的话,ECC检测线路就会报错。
: Data没问题,所以你把ECC关掉系统运行正常。
: 你试了不同的内存条插槽配置,有的ECC正常,有的ECC报错,原因依然是ECC检测线
路。
: 把主频降下来就能解决问题了。

q
quincycenter


楼主update:

刚google了一下:
有个老兄碰到跟我类似的问题:https://www.passmark.com/forum/memtest86/45742-ecc-error-detected-on-every-
32gb-ecc-module-tested-on-coffee-lake-platform

他用的两个主板,跟我一模一样:ASUS C246, and Gigabyte C246.
这是两块是popular的C246 chipset 主板。

可是我有点看不懂:
他说 32GB(8Gbit Chip) DDR4 ECC mudle 会出ECC Error 。16GB的不会。

感觉他是说单条32GB.
可是据我所知,这两块主板的C246 chipset, 最大只支持单条16GB内存,怎么可能上
32GB呢?
厂家的QVL上,最大也只有16GB的。

他上单条32GB的话,应该跑不起来吧?

而我的平台,16GB单条跑,有时候报错,有时候不报。
16GBx4一起跑,大部分时候报错。只有pentium G5400跑成功过一次。

目前还在继续测试中。。。

【 在 quincycenter (quincycenter) 的大作中提到: 】
: ECC Error的话,问题严重不?有多严重?
: ASUS C246 motherboard, Gigabyte C246 motherboard,
: CPU: 试了好几个:Pentium 5400, pentium 5400T, i3-8100T, Xeon 2174G, Xeon
: 2126G
: 全部支持ECC
: Memory:
: Timetec Hynix IC 64GB KIT (4x16GB) DDR4 2400MHz PC4-19200 Unbuffered ECC 1.
: 2V CL17 2Rx8 Dual Rank 288 Pin UDIMM Server Memory RAM
: https://www.amazon.com/Timetec-2400MHz-PC4-19200-Unbuffered-Upgrade/dp/
: B07NQ2J272
: ...................

s
sunfic

memory降频

【 在 quincycenter (quincycenter) 的大作中提到: 】
: ECC Error的话,问题严重不?有多严重?
: ASUS C246 motherboard, Gigabyte C246 motherboard,
: CPU: 试了好几个:Pentium 5400, pentium 5400T, i3-8100T, Xeon 2174G, Xeon
: 2126G
: 全部支持ECC
: Memory:
: Timetec Hynix IC 64GB KIT (4x16GB) DDR4 2400MHz PC4-19200 Unbuffered ECC 1.
: 2V CL17 2Rx8 Dual Rank 288 Pin UDIMM Server Memory RAM
: https://www.amazon.com/Timetec-2400MHz-PC4-19200-Unbuffered-Upgrade/dp/
: B07NQ2J272
: ...................

s
sunfic

就是说你买的memory质量比较差不能满频率满参数的跑
你要细调memory参数 或者比较简单的就是内存降频

【 在 quincycenter (quincycenter) 的大作中提到: 】
: 感觉你说的有道理。
: 目前看来,Pentium G5400出ECC error的概率较小。
: 它是目前唯一一个能在我四个主板中,其中一个主板上,4条全插的情况下,
: 跑完16小时全部检测不出错的CPU
: 而同等条件下,i3 8100T, Xeon 2174G 都会出错。
: 可是G5400的频率是3.7GHz, Xeon 2174G 是3.8GHz, 差别并不大呀。
: 而8100T 的频率是3.1GHz,出错概率跟3.8G高频的Xeon 2174G 差不多。
: 反而是G5400目前看来最为稳定。
: 请问你说的“把主频降下来就能解决问题了”是什么意思?
: 是降CPU频率还是内存频率?
: ...................

O
OofW

你和那个老兄其实都是一个问题,用QVL 之外的条子

那么结果就是自己做小白鼠,能不能成功靠运气

32GB虽说不在QVL 上,但也不代表点不亮,也许只是板子发布的时候还没有32GB的

这种情况跑起来有问题的可能性大,跑正常了那是运气

所以还是建议找QVL 上的条子来对比试一下

【 在 quincycenter (quincycenter) 的大作中提到: 】
: 楼主update:
: 刚google了一下:
: 有个老兄碰到跟我类似的问题:
: https://www.passmark.com/forum/memtest86/45742-ecc-error-detected-on-every-
: 32gb-ecc-module-tested-on-coffee-lake-platform
: 他用的两个主板,跟我一模一样:ASUS C246, and Gigabyte C246.
: 这是两块是popular的C246 chipset 主板。
: 可是我有点看不懂:
: 他说 32GB(8Gbit Chip) DDR4 ECC mudle 会出ECC Error 。16GB的不会。
: 感觉他是说单条32GB.
: ...................

q
quincycenter


那么请教如何解释:
同等条件下:4x 16GB all memory slots mounted,

pentium G5400 测试能通过。
i3 8100T 和 Xeon 2174G 不能通过。

【 在 sunfic (sunfic) 的大作中提到: 】
: 就是说你买的memory质量比较差不能满频率满参数的跑
: 你要细调memory参数 或者比较简单的就是内存降频

s
sunfic

每个cpu的内存控制器都是不一样的 驱动强度 时序宽容度都不同
比如ddr4时代初期 intel cpu能用的内存条amd的cpu就不一定能用
现在ddr4内存发展了多年,兼容性问题不多见了,大部分都是性能不达标
另外记住ECC内存需要额外的时序处理校验,所以频率还要更低一些

【 在 quincycenter (quincycenter) 的大作中提到: 】
: 那么请教如何解释:
: 同等条件下:4x 16GB all memory slots mounted,
: pentium G5400 测试能通过。
: i3 8100T 和 Xeon 2174G 不能通过。

q
quincycenter


多谢指教。
我再试试。
回头再来报告结果。

【 在 sunfic (sunfic) 的大作中提到: 】
: 每个cpu的内存控制器都是不一样的 驱动强度 时序宽容度都不同
: 比如ddr4时代初期 intel cpu能用的内存条amd的cpu就不一定能用
: 现在ddr4内存发展了多年,兼容性问题不多见了,大部分都是性能不达标
: 另外记住ECC内存需要额外的时序处理校验,所以频率还要更低一些

q
quincycenter


楼主现在来update测试结果了。

平台:
主板:ASUS WS C246 PRO
Gigabyte C246 WU4 (两块)

各四条内存插槽。

这两款主板布局极为类似,不知道是不是谁抄谁的。

CPU: 全部是8代:pentium, i3, xeon各两块。
Pentium G5400, G5400T
i3-8100T, i3-8300
Xeon 2174G (4 core, 8 threads), Xeon 2126G (6 core, 6 threads)

这几款CPU全部支持ECC.
桌面CPU只有低端型号支持ECC。i5,i7,什么的,就不支持ECC了。

内存:

Timetec Hynix IC 64GB KIT (4x16GB) DDR4 2400MHz PC4-19200 Unbuffered ECC
1.2V CL17 2Rx8 Dual Rank 288 Pin UDIMM Server Memory RAM
https://www.amazon.com/Timetec-2400MHz-PC4-19200-Unbuffered-Upgrade/dp/
B07NQ2J272

4x 16GB

用memtest86 8.3 USB bootable test memory.

测试结果:
如果只插一对内存(当然是dual channel),所有主板和CPU,不管什么组合,
在额定频率2400MHz 上,测试都能通过。没出过错。

如果只装一条(就是不是dual channel了),在少量情况下,还是会出ECC error.
这有点奇怪。

如果四条全装,在额定频率2400MHz 上,有超过一半的可能,会出ECC error。
甚至还有出过非ECC 的error。就是根本就是内存数据不正确了。

出错跟哪块主板没关系。
越快的CPU,出错的可能性越大。比如Xeon,好象没有跑成功一次。

所以,两条可以稳定运行,四条不行。

如果要装四条,降频可以。把频率从额定的2400MHz 降到2266MHz,
全部CPU 或主板都能通过。就一点问题没有了。

所以结论是:内存的频率标定有点虚高,仅仅能勉强跑在2400MHz 附近。

这种情况下,厂家就不应该标2400MHz, 标2266MHz就没问题了。
我就当2266MHz的内存用就好了,就不会有问题。

多谢各位达人指教。(让我降频使用,这一点是解决问题的关键)

【 在 quincycenter (quincycenter) 的大作中提到: 】
: ECC Error的话,问题严重不?有多严重?
: ASUS C246 motherboard, Gigabyte C246 motherboard,
: CPU: 试了好几个:Pentium 5400, pentium 5400T, i3-8100T, Xeon 2174G, Xeon
: 2126G
: 全部支持ECC
: Memory:
: Timetec Hynix IC 64GB KIT (4x16GB) DDR4 2400MHz PC4-19200 Unbuffered ECC 1.
: 2V CL17 2Rx8 Dual Rank 288 Pin UDIMM Server Memory RAM
: https://www.amazon.com/Timetec-2400MHz-PC4-19200-Unbuffered-Upgrade/dp/
: B07NQ2J272
: ...................

F
FakeMask

赞update!

【 在 quincycenter (quincycenter) 的大作中提到: 】
: 楼主现在来update测试结果了。
: 平台:
: 主板:ASUS WS C246 PRO
: Gigabyte C246 WU4 (两块)
: 各四条内存插槽。
: 这两款主板布局极为类似,不知道是不是谁抄谁的。
: CPU: 全部是8代:pentium, i3, xeon各两块。
: Pentium G5400, G5400T
: i3-8100T, i3-8300
: Xeon 2174G (4 core, 8 threads), Xeon 2126G (6 core, 6 threads)
: ...................

r
rufli

至少i3支持ECC,i5 i7不行

【 在 OofW (OofW) 的大作中提到: 】
: 你这表述一团乱麻啊
: 首先没有i3-5400/T这种东西,我估计你说的是Pentium G5400/T?
: 其次这前面几个非Xeon的 U肯定不支持ECC 啊,要不然Xeon卖给谁去?Xeon最大的卖点
: 就是支持ECC
: 正常的用法是 Xeon + C246主板 + ECC内存
: 几个非Xeon的 U虽然C246主板能点亮不代表所有功能都能实现,想ECC 正常乖乖用回: Xeon吧

r
rufli

普通的ECC错误一般由宇宙射线引起;你这个不知道算不算正常
【 在 quincycenter (quincycenter) 的大作中提到: 】
: ECC Error的话,问题严重不?有多严重?
: ASUS C246 motherboard, Gigabyte C246 motherboard,
: CPU: 试了好几个:Pentium 5400, pentium 5400T, i3-8100T, Xeon 2174G, Xeon
: 2126G
: 全部支持ECC
: Memory:
: Timetec Hynix IC 64GB KIT (4x16GB) DDR4 2400MHz PC4-19200 Unbuffered ECC 1.
: 2V CL17 2Rx8 Dual Rank 288 Pin UDIMM Server Memory RAM
: https://www.amazon.com/Timetec-2400MHz-PC4-19200-Unbuffered-Upgrade/dp/
: B07NQ2J272
: ...................