스토리지

실제 하드 드라이브 고장을 예측하는 5가지 SMART 지표

Lucas Mearian | Computerworld 2014.11.14
약 4만 대의 하드 드라이브에서 수집한 데이터에 따르면, IT 관리자가 드라이브의 건강(무결성)을 관리할 때 이용하는 하드 드라이브 소프트웨어는 드라이브, 제조업체에 따라 결과가 다르다.

클라우드 서비스 공급업체인 백블레이즈(Backblaze)가 최근 발표한 자료는 SMART 통계의 70개 지표 가운데 하드웨어 드라이브 고장을 예측하는 5가지를 제시하고 있다.

SMART(Self-Monitoring, Analysis, and Reporting Technology)는 업체들이 IT 관리자들에게 긴박한 문제를 알려주는 툴로 설치해 놓은 아주 보편화된 펌웨어이다. 하지만 SMART 소프트웨어와 하드웨어는 표준이 없기 때문에, 각 업체 간에 SMART 데이터를 교환해 사용할 수 없다. 또한 업체들은 드라이브 제품군의 문제 분석에 SMART 데이터를 이용할 수 있다.

백블레이즈는 지난 몇 년간 하드 드라이브 고장에 관한 데이터를 수집해 왔다. 그리고 자사 블로그에 다른 업체와 비교해 고장이 자주 발생하는 드라이브 등에 관한 데이터를 공개한 바 있다. 

이번에도 역시 백블레이즈 블로그를 통해 공개한 최신 연구 결과는 백블레이즈 데이터센터에 보유하고 있는 4만여 대의 하드 드라이브에 토대를 둔 SMART 경고에 관한 내용이다.

백블레이즈의 CEO 글렙 버드먼에 따르면, 드라이브 고장을 미리 알려주는 다섯 가지 SMART 지표가 있다.


백블레이즈가 하드 드라이브 고장 예측과 관련성이 높다는 사실을 밝힌 SMART 지표 중 하나는 187이다. 이는 특정 하드 드라이브에서 발생하는 읽기 오류의 횟수를 알려주는 지표이다. .

SMART 소프트웨어는 드라이브의 문제를 정규화한 값 또는 항목으로 보고한다. 즉 1-253까지의 SMART 항목이 있다(중간에 빠진 숫자가 있음). 예를 들어, '1'은 데이터 읽기 오류율로, 소수로 표시된다. '240'은 드라이브의 읽기/쓰기 헤드 포지셔닝에 필요한 시간을 보여준다.

백블레이즈가 약 4만 대의 드라이브를 분석한 결과에 따르면, 긴박한 디스크 드라이브 고장과 상관관계가 높은 가지 SMART 지표는 다음과 같다.

• SMART 5 - Reallocated_Sector_Count.
• SMART 187 - Reported_Uncorrectable_Errors.
• SMART 188 - Command_Timeout.
• SMART 197 - Current_Pending_Sector_Count.
• SMART 198 - Offline_Uncorrectable

백블레이즈는 스토리지 어레이에서 드라이브를 제거해 교체한 시점을 고장으로 간주한다. 드라이브 작동이 멈췄거나, 곧 작동을 멈출 것이라는 증거가 있을 때이다.

드라이브가 물리적으로 죽었을 때, 다시 말해 움직이지 않을 때, 또는 콘솔 명령에 반응을 하지 않을 때, RAID 시스템이 드라이브의 읽기 또는 쓰기 기능이 작동하지 않는다고 보고할 때 드라이브가 작동을 멈췄다고 판단한다.

백블레이즈는 "드라이브가 곧 고장을 일으킬지 판단하기 위해 SAMRT 지표를 이용한다. 이는 아주 큰 고장을 일으키거나, 스토리지 운영을 저해할 정도의 문제가 발생하기 전에 드라이브를 제거하기 위한 증거를 제시한다"고 설명했다.

예를 들어, SMART 187은 하드웨어 ECC(Error Correction Code)로 수정되지 않는 읽기의 수를 보고한다. 버드먼은 "수정할 수 없는 오류가 0인 드라이브가 문제를 일으킬 확률은 거의 없다. 그러나 SMART 187이 '0'을 넘을 경우 드라이브 교체를 준비한다"고 말했다.


백블레이즈에 따르면, SMART 12는 드라이브의 파워온과 관련된 것으로, 장기적인 마모 정도를 나타내야 한다. 하지만 그렇지 않은 것으로 나타났다.

SMART 지표를 완전히 파악하지 못하도록 가로막는 문제점 중 하나는 제조업체가 실제 사용에 유용한 세부사항을 공개하지 않고 있는 것이다.

버드먼은 "SMART 지표 1을 위키피디아에서 검색하면 업체가 지정한 값이라는 설명이 나온다. 씨게이트는 뭔가를 추적하려 애쓴다. 하지만 그게 뭔지 자신만 안다. 웨스턴 디지털은 다른 용도로 SMART를 이용하지만 역시 공개를 하지 않는다"고 지적했다.

또 "SMART 1은 드라이브 고장율과 관련이 있어야 한다. 그러나 드라이브 업체에 따라 용도가 다른 경향이 있다"고 덧붙였다.

버드먼에 따르면, SMART 12 또한 긴박한 드라이브 고장을 알려주는 것이어야 하지만, 실제로는 그렇지 못하다. SMART 12는 장기적인 마모와 상관관계가 있는 드라이브 파워온의 횟수와 관련이 있다. 버드먼에 따르면, 연간 고장율이 SMART 12 경고에 맞게 상승했다. 그러나 이후 고장율이 정체됐다가 감소세로 돌아섰다.

버드먼은 "즉 처음에는 상관관계가 있어 보였지만, 그렇지 않은 것으로 판명 났다. 일직선의 형태가 아니기 때문이다. SMART 펌웨어에 들어있는 지표들은 일관성이 없다"고 말했다.  editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.