역시 내 옵테인 벤치마크는 잘못됐다. [P4800X 375GB]

 P4800X 750GB 리뷰를 한지 반년이 되었네요. 휴학에 취업 준비를 하고 있어서 그런가, 시간의 흐름이 정말 빠릅니다. 

 그 때의 리뷰를 보니 9600X 본체의 고장으로 인해 고생한 흔적이 보입니다. 참고로, 지금은 270k Plus의 고장으로 인해 고생 중 입니다. 혹시 P4800X 리뷰는 저와 뭔가 맞지 않는걸까요? 

 본론으로 돌아와, 제목에서 확인할 수 있듯, 이전의 P4800X 벤치마크 결과가 이상하다는 것을 판명했습니다. 이는 제가 테스트한 제품에 한하여 발생한 문제로 보입니다. 뿔딱 SSD라니.

 아무튼, 쌓여있는 리뷰를 빨리 마무리하고 더 좋은 리뷰를 새로이 작성할 수 있도록 해보겠습니다. 해보고 싶은 벤치마크가 몇 개 더 생겼거든요.

 

목차


Appearance

P4800X Front

 전면에는 제품명이 적힌 히트싱크가 있습니다. 900P, 905P와는 또 다른 모습의 히트싱크입니다.

P4800X Rear

 후면에는 소비자용으로 나온 905P와 다르게 백플레이트가 없는 모습입니다.


Datasheet

P4800X Specification - Intel Ark

 이번 DUT인 HHHL타입의 P4800X 375GB는 위와 같은 스펙을 가지고 있습니다. 지금까지 제가 리뷰한 Optane SSD와 비교해봅시다.

ProductP4800X 375GBP4800X 750GB905P 960GB
SEQ RW [MB/s]2400 / 20002500 / 22002600 / 2200
RND RW [IOPS]550k / 500k550k / 550k575k / 550k
IDLE / Active [W]5 / 186 / 186 / 16.4
Operating Temp0°C ~ 70°C0°C ~ 70°C0°C ~ 85°C
Endurance [PBW]20.541.017.52
MTBF [hours]2 M2 M1.6 M

 미세하게 조금씩 다른 스펙을 가지고 있는 것을 확인할 수 있습니다. 참고로, 905P 960GB의 RND 성능은 컨슈머용 답게 8GB Span을 지정하고 있지만, P4800X 시리즈는 엔터프라이즈용 답게 100% Span을 지정합니다.

 그외에도 MTBF와 최대 작동 온도가 905P 시리즈와는 다른 모습을 보여주네요. 명시된 내구성은 905P 960GB가 제일 고용량임에도 불구하고 가장 낮은 모습을 보여줍니다.
 이는 P4800X와 905P의 OP비율 차이에서 오는 것으로 보입니다. (P4800X 750GB 리뷰 참고) 375GB SKU의 분해는 진행하지 않았지만, 750GB SKU와 유사하게 약 37% OP를 가지고 있을 것으로 예상됩니다.

 그럼에도 불구하고 905P는 10DWPD라는 굉장한 내구성을 자랑합니다. 충분히 Write Intensive eSSD라고 칭할 수 있는 내구성이니 말이죠. cSSD로써는 굉장한 수치입니다.


Notable Points

 905P 리뷰에서 다루었던 내용을 참고해주시길 바랍니다.


SW Report

CrystalDiskInfo 9.7.2

 smartmontools와 NVMe-CLI의 id-ctrl 결과는 GitHub에 첨부하도록 하겠습니다.


DUT Summary

벤치마크를 진행할 SSD에 관한 요약입니다.

INTEL SSDPED1K375GA [P4800X 375GB]
LinkPCIe 3.0 x4NVMe VersionNVMe 1.1
Firmware
E2010650
LBA Size512B + @
ControllerIntel SLL3DWarning TempX °C
Storage MediaIntel 3DXP G1Critical TempX °C
Power StateMaximum PowerEntry LatencyExit Latency
PS018.00 W0 μs0 μs

 Data Size + Metadata Size로 산출되는 LBA Size는 512B, 520B, 528B, 4096B, 4104B, 4160B, 4224B로 750GB 모델과 동일하게 7종류입니다.

 특이한 점이 있다면, PS0의 Maximum Power의 수치가 18.00W로, U.2인 750GB 모델의 12.00W보다 높은 수치를 보였습니다. 이 부분은 Intel Ark의 내용을 고려한다면, 18.00W가 옳은 것으로 추측됩니다.

Comparison Device

 비교군은 아래와 같습니다.

NameWhy?
P4800X 750GB [E2010650]말이 필요할까요?
983 ZET 960GB [EEZ90R56]Z-NAND(SLC)를 활용한 동시기의 SCM급 SSD

 P4800X 750GB와 DUT는 펌웨어 버전도 E2010650로 동일합니다.


Test Platform

 테스트 환경은 위와 같습니다. Windows 25H2(26200.6899)에 종속되는 도구들을 제외하고는 모두 FIO 3.41을 통해 Rocky Linux 10(6.12.0-55.12.1.el10_0)에서 실행되며, io_uring과 Polling을 적극적으로 활용합니다. 또한, 양쪽 다 기본 Inbox Driver를 사용합니다.

 HW 사양에 대해서는 상단 우측의 fastfetch를 통해서 확인할 수 있지만, 다시 언급하자면, AMD의 9600X를 사용하고 있습니다. DUT는 5.0 x16 연결이 가능한 PEG 슬롯에 장착됩니다.

 추가로, Intel의 Evaluation Guide를 따라, 모든 성능 측정 전에는 3시간 동안 전원을 켜두었습니다.

 자세한 벤치마크 방법론에 대해서는 이전에 작성한 Refresh Benchmark를 참고해 주시길 바랍니다.


cSSD Benchmarking

start /wait Rundll32.exe advapi32.dll/ProcessIdleTasks

 Windows에서는 위의 명령어를 실행하고 15분 뒤를 IDLE 상태로 정의해 벤치마크를 진행합니다. 각 벤치마크 사이에는 5분의 휴식 시간이 부여되며, Purge는 Linux에서 nvme format 명령어를 통해 수행했습니다. 다만, Optane SSD의 특성상, 시간 초과를 방지하기 위해 timeout 값을 길게 주었습니다. 

CrystalDiskMark 9.0.1

3DMark Storage Benchmark

SPECworkstation 4.0

 Windows에 의존적인 도구들, CDM, 3DMark, SPECworkstation에서는 P4800X 간에 큰 차이를 보이지 않았습니다.

Fill Drive

 나래온 더티테스트와 비슷한 벤치마크입니다. FOB상태로 시작하여, SEQ 128k QD256으로 드라이브 전체를 2회 채우며, 0.1s 단위로 값을 측정합니다. 1회차와 2회차 사이의 휴식은 충분히 부여됩니다.

 확실히 테스트를 진행했던 P4800X 750GB의 상태가 멀쩡하지 않았던 것으로 보입니다. DUT가 905P와 유사한 그래프를 보여주네요.

 2회차도 별 다른 부분은 없습니다.

 첫 번째와 두 번째의 Fill Drive에 대한 전체 평균값은 위와 같습니다.

 첫 번째 Fill Drive에 대한 하위 1% 속도입니다. P4800X 750GB는 심한 변동성으로 인해 2000MB/s 이하의 속도를 기록합니다. 이는 용량의 문제가 아니라 제가 테스트를 진행한 SSD에 문제가 있던 것으로 보입니다.

Low QD Performance by RW Ratio 

 이전과 마찬가지로 Pre-Conditioning 이후에 측정하며, Burst 성능을 측정하기 위해서 각 단계에서 가해지는 I/O의 양은 GB 단위가 되지 않습니다. 다시 말해, 매우 가벼운 부하입니다. 전체 용량의 75%는 이미 채워져 있지만요.

 Low QD에서 NAND 기반 SSD와 다른 모습의 그래프를 보여주는 것이 Optane SSD의 매력이 아닐까 싶습니다.

Weighted Graph 

 QD1 80%, QD2 15%, QD4 5%로 가중치를 부여해 보기 쉽게 나타냅니다.


eSSD Benchmarking

 Purge 직후를 제외한 모든 단계 사이에는 휴식 시간이 부여되지 않습니다. Pre-Conditioning은 User Capacity의 2배를 쓰고나서도 Steady State에 진입할 때까지 이를 계속 진행합니다. 
 Steady State는 SEQ의 경우엔 대역폭의 기울기가 ±10%인 상태를 30초간 유지하는 것을 기준으로 하며, RND의 경우에는 IOPS의 기울기가 ±10%인 상태를 30초간 유지하는 것을 기준으로 합니다. 이를 달성할 수 없을 땐 User Capacity의 23배까지 쓰기를 진행합니다.

 모든 워크로드는 User Capacity의 전체 영역에 대해서 진행하며, 각각 30초의 적응 시간을 가진 후에 5분 동안 성능측정을 진행합니다. 다시 말해, 128k Read 성능을 측정한다면 QD1 ~ QD256까지 총 9개의 작업이 있으며, 모든 작업이 30초의 적응 시간과 5분의 측정시간이 부여됩니다.

 역시 자세한 벤치마크 방법론에 대해서는 이전에 작성한 Refresh Benchmark를 참고해주시길 바랍니다.

이번 리뷰부터 평균 지연시간이 아닌, 50% 지연시간으로 축이 변경됩니다. 주의하시길 바랍니다.

4-Corners Performance

SEQ Pre-Conditioning

 앞서 Fill Drive에서 언급한 차이가 그대로 보입니다. 약 6분의 시간이 흐른 뒤, 2229MB/s의 속도로 Steady State에 진입합니다.

SEQ 128k Performance

 SEQ Read의 경우에는 QD2에서 2720MB/s@93µs로 포화됩니다. 2680MB/s@94µs인 750GB 모델과 큰 차이는 나지 않았습니다.

 하지만, SEQ Write에서는 나름 차이가 발생했습니다. QD2에서 최대 속도를 기록한 것은 동일하지만, DUT는 2300MB/s@100µs를, 750GB 모델은 2111MB/s@133µs를 기록했습니다. 이는 전적으로 Fill Drive에서도 지적되었던 Consistency와 관련된 문제입니다.

RND Pre-Conditioning

 RND Pre-Conditioning도 SEQ와 다를 것 없이 6분 밖에 소모되지 않았습니다. 이것이 Optane SSD의 큰 장점 중 하나죠. 559k IOPS로 Steady State에 진입했습니다. 그래프에서도 보이겠지만, 이는 Burst 성능과 다를 것 없는 수치입니다.

RND 4k Performance

 RND Read는 QD8에서 590k IOPS@13µs의 성능을, RND Write는 QD16에서 563k IOPS@25µs 로 최고 성능을 보였습니다. 최대치가 아니라 Low QD에 집중하더라도 Z-NAND가 적용된 983 ZET를 가볍게 넘겨주는 모습입니다. 

4-Corners Consistency

 QD에 따른 4-Corners Performance의 안정적인 정도를 제시합니다. 상위 99.9%값과 평균을 이용하는데, SEQ 128k에서는 Bandwidth를 기준으로, RND 4k에서는 IOPS를 기준으로 계산합니다. 참고로, RND 4k에서 QD1에 대한 값은 이후 Tail Latency에서 자세히 살펴보기에 제외됩니다.

 Read 측면에서는 큰 차이가 없어보이지만, Write에선 다릅니다. DUT가 SEQ Write에서는 90% 이상의, RND Write에서는 95% 이상의 Consistency를 보여주는 반면, 750GB 모델에서는 QD8 이상에서는 SEQ, RND에 무관하게 85% 이하의 모습을 보여줍니다.

 다시 말하지만, 이는 750GB 모델의 문제라기보다는, 제가 가진 제품의 문제로 생각됩니다.

Specific Workload Performance

 4-Corners Performance가 아닌 워크로드를 분리했습니다. 단, 워크로드 이름은 편의상 붙인 것뿐이며, 실제 환경에서는 다양한 Block Size와 RW 비율이 나타난다는 것을 명심해야 합니다. Block Size들의 정확한 비율과 RW 비율을 결정하기 힘들어 대략 분류한, 가상의 워크로드입니다.

Boot Workload (OCP BootBench)

 Hyperscale에서의 Boot Drive로 사용될 때의 성능을 측정하는 벤치마크입니다. SEQ Write로 User Capacity가 2번 채워지면, 동기 쓰기, TRIM, 읽기가 동시에 가해지며, 결과의 지표는 읽기 IOPS입니다. 60k IOPS를 통과하면 합격입니다.

Read Intensive Workload (SEQ 128k R95:W05)

 읽기 집약 워크로드에서는 QD2에서 2680MB/s@93µs로 최대 성능이 측정되었습니다.

Mainstream Workload (RND 4k R70:W30)

 메인스트림 워크로드는 DUT가 QD8에서 511k IOPS@15µs가 측정되었고, 750GB 모델의 경우엔 QD8에서 525k IOPS@15µs가 측정되었습니다.

 주목할 부분은 Optane SSD의 우수한 혼합 성능도 있지만, 750GB 모델의 성능이 정상적으로 나왔다는 것입니다. 간단하게 표준편차들을 표로 요약해보겠습니다. 

QD256 IOPS stdevP4800X 375GBP4800X 750GB983 ZET 960GB
RND 4k Write3584.5071636.091736.51
RND 4k 7030 (Write)462.92470.471354.68
RND 4k 7030 (Mix)625.00558.562454.53

 이는 P4800X 750GB의 벤치마크 결과가 일부 정상적이지 않다는 것을 다시 한 번 보여줍니다.

Write Intensive Workload (RND 4k R50:W50)

 쓰기 집약 워크로드에서 DUT는 QD8에서 487k IOPS@16µs, 750GB 모델은 QD8에서 506k IOPS@15µs의 성능을 보였습니다.

 메인스트림 워크로드처럼 750GB 모델의 성능이 정상적으로 나오는 것을 확인했습니다. 여기서도 표준편차로 한 번 보시죠.

QD256 IOPS stdevP4800X 375GBP4800X 750GB983 ZET 960GB
RND 4k Write3584.5071636.091736.51
RND 4k 5050 (Write)633.41554.33895.80
RND 4k 5050 (Mix)672.79575.70960.42

AI Workload (RND 512B Read)

 AI 워크로드는 RND 512B Read로 세팅했습니다. DUT는 QD8에서 583k IOPS@13µs의 성능을 보여주며, RND 4k Read와 동일한 성능을 보여주었습니다. 이는 P4800X나 905P 시리즈의 아쉬운 부분입니다. 다른 컨트롤러들에서는 NAND와 다른 3D XPoint의 성능을 살리는 모습을 보여주거든요.

 반면, 983 ZET는 이 워크로드에서 심각한 후퇴를 보여줍니다. Z-NAND의 작동방식과 관련된 문제가 아닌가 예상합니다.

Random 4k QD1 Tail Latency

 Latency에서 가장 느린 구간을 의미합니다. 그렇기 때문에 QoS(Quality of Service)에 큰 영향을 미치고, 실제로 eSSD의 데이터시트에서는 QoS를 명시하고 있습니다. 

 여기에선 100ms나 10ms 단위가 아닌, 모든 개별 I/O에 대한 지연시간을 카운트하여 그래프를 그립니다. 그렇기 때문에 데이터가 상당히 방대해, 이 항목은 RND 4k QD1에 대해서만 진행합니다.

RND ReadDatasheetBenchmark Result
Typical Value< 10 µs14 µs
QoS (99.999%)< 100 µs47 µs
RND WriteDatasheetBenchmark Result
Typical Value< 12 µs13 µs
QoS (99.999%)< 60 µs80 µs

 스펙보다 살짝 뒤쳐지는 측정 결과를 보였습니다. 제가 테스트했던 750GB 모델이 앞서 여러 그래프에서 볼 수 있었듯, 문제가 있기 때문에 스펙에 부합하는 지연시간을 달성하지 못하나 생각을 했는데, 정상적인 결과가 나오는 375GB 모델도 이런 모습을 보니, AMD 플랫폼의 문제인가 생각도 듭니다.

 테스트 플랫폼을 인텔로 이동하였으나, 이젠 P4800X가 없어 검증을 다시할 수는 없을 것 같네요.

RND 4k QD16DatasheetBenchmark Result
Read QoS (99.999%)< 150 µs100 µs
Write QoS (99.999%)< 200 µs129 µs

 P4800X의 스펙 중 하나는 RND 4k QD16에서의 QoS도 명시되어 있습니다. 이 부분은 매우 잘 지켜지는 것을 확인할 수 있었습니다. 그래프엔 나타나지 않았지만, 99.9999%까지도 해당 스펙을 만족하는 것을 보였습니다.

 개인적으로는 Low QD에서 983 ZET의 QoS가 굉장히 놀라운 모습을 보여주는 것도 포인트라고 생각합니다. 


Closing

 이전에 작성했던 P4800X 750GB의 리뷰를 보충하는 리뷰가 되겠습니다. 간단하게 스펙시트에 표기된 4-Corners의 IOPS나 Throughput은 모두 초과하여 만족하는 모습을 보였으며, 혼합 성능도 만족하는 것을 확인했습니다. 간단하게 표로 확인해봅시다.

P4800X 375GBDatasheetBenchmark Result
SEQ Read2400 MB/s2700 MB/s
SEQ Write2200 MB/s2300 MB/s
RND 4k QD16 Read550k IOPS590k IOPS
RND 4k QD16 Write500k IOPS560k IOPS
RND 4k QD16 7030500k IOPS506k IOPS

 아쉬운 부분은 역시 지연시간의 측정일까요? 꼬리 지연 시간 그래프를 확인해보면, 혼합 워크로드에선 10µs 이하의 지연시간도 일부 측정되었으나, 순수 읽쓰기 워크로드에선 그렇지 못했습니다. 아마 이 부분이 힌트가 될 것 같은데, 팍 꽂히는 건 없네요.

 스포일러를 하자면, P4800X를 제외하고 제가 보유한 모든 Optane SSD에서는 올바르게 성능이 측정되었습니다. 더 테스트해보고 싶으나, 이 정상적인 P4800X는 제 물건이 아니고 지인분께서 대여해주신 물건이라 돌려보냈습니다.

 솔직하게 말씀드리자면, P5800X의 벤치마크가 완료되었고 성능을 잘 파악하고 있기에 P4800X에 대한 흥미가 상당히 줄어든 상태입니다. 뭐라고 해야할까요, P4800X는 저성능이라 구미가 안 당긴다 해야할까요? 

 리뷰할 데이터들이 꽤 남았는데, 계속해서 소진해보겠습니다.

P4800X 375GB 제품을 빌려주신 지인분께 이 글로 감사인사를 전합니다.

This article was updated on

Related post

Comments