ARM64에서 std::memory_order의 실제 비용은 얼마인가? — Jetson Orin 실측 벤치마크
1kHz RT 루프에서 atomic memory ordering이 성능 병목이 될 수 있는지 Jetson Orin(Cortex-A78AE)에서 직접 측정했습니다. AArch64에서 seq_cst와 release/acquire의 비용은 사실상 동일하며, 25개 atomic 연산의 총 비용은 1ms 예산의 0.01% 미만입니다.
1kHz RT 루프에서 atomic memory ordering이 성능 병목이 될 수 있는지 Jetson Orin(Cortex-A78AE)에서 직접 측정했습니다. AArch64에서 seq_cst와 release/acquire의 비용은 사실상 동일하며, 25개 atomic 연산의 총 비용은 1ms 예산의 0.01% 미만입니다.
로봇 제어 시스템의 IPC 성능을 결정하는 요인은 프로세스 경계가 아닌 동기화 메커니즘입니다. Mutex 기반 78-103µs에서 Lock-free로 0.74-0.82µs를 달성한 100배 개선 사례를 공유합니다.