방명록
- 9장 : 인프라 운영2023년 09월 20일 19시 50분 27초에 업로드 된 글입니다.작성자: 재형이반응형
장애 대응
- 하드웨어와 소프트웨어의 안정성 및 가용성은 중요한 요소입니다. 하드웨어는 언젠가 고장 날 수 있으므로 서비스 중단을 방지하기 위해 다양한 기술이 사용됩니다. 이중화된 하드웨어에서 고장난 부품을 교체하는 "핫스왑" 기술이나 이상을 감지하고 자동으로 보정하는 "ECC 기능"은 하드웨어 가용성을 높여줍니다. 또한 하이엔드 서버에서는 실시간 감시와 경고 시 업체의 유지보수팀이 수리하는 서비스도 제공됩니다.
- 소프트웨어는 버그가 포함될 가능성이 있으며, 실제 환경에서의 테스트 이외에도 조작이나 악의적인 접근으로 인한 문제가 발생할 수 있습니다. 이런 경우 인프라 엔지니어는 시스템 장애를 감지하거나 버그를 발견하기 위해 감시 솔루션을 사용합니다. 감시 솔루션을 신중하게 선택하고 모든 장치에서 발생할 수 있는 장애 패턴을 감지하도록 엄격하게 설정하는 것이 중요합니다.
- 요약하면, 하드웨어와 소프트웨어의 안정성을 유지하고 서비스 가용성을 높이기 위해 감시 솔루션은 인프라 엔지니어에게 중요한 도구입니다. 하드웨어 고장 및 소프트웨어 버그로 인한 문제를 미리 감지하여 시스템 장애를 방지하고 원활한 서비스를 유지하는 데 도움이 됩니다.
병목 현상을 해결하자
- IT 시스템에서 병목 현상은 전체 시스템 응답에 부정적인 영향을 미치므로, 병목을 해결할 때에는 전체 시스템의 관점에서 고려해야 합니다. 부분적인 문제 해결만으로는 다른 부분에서 발생하는 병목을 완전히 해소할 수 없습니다.
- 예를 들어 웹 서버 부족과 데이터베이스 서버 메모리 부족이 동시에 발생한다면, 데이터베이스 서버 메모리를 확장해도 웹 서버 부족은 여전히 존재하므로 전체 시스템의 응답 속도는 개선되지 않습니다.
- 특히 접속이 급증하는 시스템에서는 계획적인 병목 대책이 필요합니다. 이러한 상황에서는 하드웨어 자원이 동시에 고갈되는 것을 방지하기 위해 단계적인 확장 계획을 수립하고, 시스템 확장과 병목 해소 작업을 병행해야 합니다.
- 시스템에서 병목이 발생하기 쉬운 부분은 다양합니다. 흔한 병목 발생 부분으로는 다음과 같은 것들이 있습니다
- 코어 스위치의 처리량 한계
- L2 스위치의 처리량 한계
- 웹 서버의 메모리 부족
- 데이터베이스 서버의 CPU 및 메모리 부족
- 데이터베이스 서버의 디스크 I/O
이러한 병목 현상을 해결하려면 전체 시스템 구성을 고려하고, 필요한 자원을 추가하거나 최적화하는 방안을 고려해야 합니다.
1. 네트워크 장비의 병목 현상을 해결
- 각 포트의 물리 인터페이스 속도 확인
- 조사 방법
- 각 네트워크 장비의 포트는 트래픽을 처리할 수 있는 속도로 구성되어야 합니다. 먼저, 해당 포트의 물리 인터페이스 속도를 확인합니다. 예를 들어, 1Gbps 인터페이스인 경우, 실제 IN 및 OUT 트래픽이 각각 1Gbps 미만인지 확인합니다. 이를 모니터링 도구 또는 네트워크 장비의 CLI(Command Line Interface)를 사용하여 확인할 수 있습니다.
- 대책
- 서버를 분산: 트래픽이 과도하게 집중된 포트의 부하를 분산하기 위해 서버를 여러 대로 분산하거나, 로드 밸런서를 사용하여 트래픽을 균형있게 분배합니다.
- 더 빠른 인터페이스로 업그레이드: 네트워크 장비의 물리 인터페이스를 더 높은 속도로 업그레이드하여 대역폭을 향상시킵니다. 예를 들어, 1Gbps에서 10Gbps로 업그레이드하는 것이 가능합니다.
- 조사 방법
- 네트워크 장비의 전송 능력 확인
- 조사 방법
- 네트워크 장비의 전송 능력을 확인하려면 패킷 드롭이 발생하는지 여부와 전송 능력 부족과 관련된 로그를 검토합니다. 이를 통해 현재 사용 중인 장비의 전송 능력에 한계가 있는지 확인할 수 있습니다.
- 대책
- 네트워크 장비 교체: 네트워크 장비의 전송 능력이 부족한 경우, 상위 기종으로 교체하거나 더 강력한 장비로 업그레이드합니다.
- 캐시 메모리 추가: 데이터의 캐싱을 통해 전송 효율을 향상시킬 수 있습니다. 따라서 캐시 메모리를 추가하거나 최적화하여 패킷 처리를 더 빠르게 수행할 수 있습니다.
- 조사 방법
이러한 접근 방식을 사용하여 네트워크 장비의 병목 현상을 조사하고 해결할 수 있으며, 네트워크의 성능을 최적화하여 원활한 데이터 흐름을 유지할 수 있습니다.
2. 서버 장비의 병목 현상을 해결
- 프론트엔드 서버의 응답 저하 확인
- 조사 방법
- 각 서버의 응답 시간을 정기적으로 모니터링하여 극단적인 응답 저하가 발생하는지 확인하거나 사용자로부터 응답 속도와 관련된 질문이 들어왔는지 확인합니다.
- 대책
- 백엔드 서버 문제 파악: 먼저, 프론트엔드 서버 문제인지 아니면 백엔드 서버(데이터베이스 등)의 문제인지 파악합니다. 백엔드 서버에서 CPU, 메모리, 네트워크, 디스크 I/O의 사용 상황을 실시간으로 확인하고, 어떤 자원이 과도하게 사용되고 있는지 확인합니다.
- 하드웨어 리소스 증설: 자원 부족으로 인한 응답 저하일 경우, 다음 조치를 취합니다
- CPU 부족: CPU의 소켓 수 또는 코어 수를 늘리거나, 더 빠른 CPU로 교체하거나, 서버 자체를 상위 기종으로 교체합니다.
- 메모리 부족: 메모리 용량을 늘립니다.
- 네트워크 부족: 복수의 네트워크 인터페이스를 묶어 대역폭을 늘립니다. 여전히 부족하다면 서버 수를 늘려 부하를 분산합니다.
- 디스크 I/O 부족: 빠른 스토리지로 업그레이드하거나 SSD 또는 엔터프라이즈 플래시 메모리로 교체합니다. 디스크 I/O 부하가 여전히 높다면 프로그램을 수정하여 부하를 분산합니다.
- 조사 방법
- 디스크 I/O 값 확인
- 조사 방법
- 디스크 I/O 값이 높을 때는 하드웨어 고장 가능성도 고려해야 합니다. 불량 섹터, RAID 컨트롤러 고장, 핫스페어 디스크 활성화 등이 원인일 수 있습니다.
- 대책
- 디스크 고장 확인: 디스크 I/O 부하가 높을 때 디스크 고장 가능성을 고려하고, 디스크 상태를 확인합니다. 필요한 경우 디스크 교체를 진행합니다.
- RAID 컨트롤러 확인: RAID 컨트롤러의 고장으로 인한 문제일 경우, 컨트롤러 상태를 점검하고 필요한 조치를 취합니다.
- 프로그램 수정: 디스크 I/O 부하가 지속적으로 높다면, 프로그램을 수정하여 디스크 부하를 분산하고 최적화합니다.
- 조사 방법
서버 장비의 병목 현상을 정확히 파악하고 이에 맞는 대책을 취하는 것은 시스템의 안정성과 성능 유지에 중요합니다.
MSP (Managed Service Provider)
MSP(Managed Service Provider)는 IT 인프라의 운영 및 관리를 대행하는 업체를 말합니다. 이러한 서비스를 필요로 하는 기업은 MSP를 선택할 때 다음과 같은 요소를 고려해야 합니다
- 기업의 신뢰성
- MSP 업체를 선택할 때, 기업의 신뢰성은 매우 중요합니다. 중요한 서버 및 인프라 운영을 위탁할 때, 신뢰할 수 있는 업체를 선택해야 합니다. 업체의 신뢰성을 평가하기 위해 MSP의 컴플라이언스(규정 준수) 측면을 검토하고 재무 상황 등을 충분히 조사해야 합니다.
- 커뮤니케이션 능력
- 인프라 운영을 MSP에게 위임하게 되면, MSP 엔지니어와의 원활한 커뮤니케이션이 필수적입니다. MSP 업체의 기술 담당자와의 커뮤니케이션이 원활하고 협력적인지 확인하는 것이 중요합니다.
- 유연성
- 인프라 운영을 MSP에게 위임하게 되면, MSP 엔지니어와의 원활한 커뮤니케이션이 필수적입니다. MSP 업체의 기술 담당자와의 커뮤니케이션이 원활하고 협력적인지 확인하는 것이 중요합니다.
- 기술력
- MSP 업체가 IT 기술을 전문으로 다루는 업체여야 합니다. 기술력이 부족한 업체를 선택하면 인프라 운영 관리에 문제가 발생할 수 있으므로 기술 능력을 검토해야 합니다.
- 비용 대비 효과
- 가격은 중요한 요소이지만, 싼 가격만을 추구해서는 안 됩니다. 비용 대비 효과를 고려해야 합니다. 견적을 받아서 각 업체의 가격 차이를 확인하고, 어느 부분에서 가격 차이가 나는지 분석해야 합니다.
가격은 중요한 요소이지만, 싼 가격만을 추구해서는 안 됩니다. 비용 대비 효과를 고려해야 합니다. 견적을 받아서 각 업체의 가격 차이를 확인하고, 어느 부분에서 가격 차이가 나는지 분석해야 합니다.
펌웨어 (Firmware)
- 펌웨어는 하드웨어를 제어하는 프로그램입니다. 주로 마이크로프로세서 또는 칩에 저장되어 하드웨어 동작을 조정하고 제어합니다.
펌웨어의 사용 예
- 서버 본체 (BIOS): 컴퓨터 부팅 및 기본 설정을 관리합니다.
- RAID 보드/HBA 보드: 디스크 어레이 관리와 데이터 보호를 위한 펌웨어를 포함합니다.
- 하드디스크 / SSD: 저장 장치의 퍼포먼스 및 안정성을 향상시키는 펌웨어가 포함됩니다.
- 네트워크 기기 본체: 스위치, 라우터 등의 네트워크 장비에서 동작하며 네트워크 트래픽을 관리합니다.
- 스토리지 본체: 스토리지 장치의 성능 및 데이터 무결성을 관리하는 펌웨어가 내장되어 있습니다.
펌웨어의 버전과 업데이트
- 하드웨어를 구매할 때, 최신 펌웨어 버전이 이미 적용되어 있습니다. 그러나 시간이 지남에 따라 새로운 펌웨어 업데이트가 출시됩니다.
- 최신 펌웨어에는 버그 수정과 성능 향상을 위한 업데이트가 포함됩니다.
- 펌웨어 업데이트는 "권장(Recommanded)", "필요(Required)", "필수(Critical)" 등의 수준으로 분류됩니다.
- 업데이트 여부를 결정할 때, 안정성과 보안을 위한 업데이트는 중요하지만, 일부 엔지니어들은 새로운 버그가 도입될 가능성을 염두에 둡니다.
- 필요한 경우, 펌웨어 업데이트를 주기적으로 적용하며, 중요한 업데이트는 놓치지 않도록 관리해야 합니다.
최신 펌웨어 정보 수집
- 최신 펌웨어 정보는 제조업체의 웹사이트나 공식 채널을 통해 확인할 수 있습니다.
- 펌웨어 정보를 주기적으로 수집하여 업데이트가 필요한지 확인하는 것이 중요합니다.
펌웨어 관리는 하드웨어의 안정성과 성능을 유지하기 위해 중요한 부분이며, 업데이트 결정은 신중하게 이루어져야 합니다.
하드웨어의 사후 지원
- 하드웨어를 구매할 때, 제조업체는 보증 기간을 제공합니다. 보증 기간 내에 하드웨어 고장 시 무상 수리 또는 교환을 지원합니다.
- 보증 기간 종료 이후에는 보증 연장을 선택할 수 있는 경우도 있습니다.
- 하드웨어의 사후 지원은 고장 시 신속한 대응을 위해 중요합니다.
- 일부 하드웨어 제조업체들은 고객에게 상위 수준의 지원 서비스를 제공합니다.
이러한 서비스는 하드웨어 고장 뿐만 아니라 운영체제나 애플리케이션 수준의 문제까지 조사하고 해결하는 데 도움을 줍니다.
반응형'데브옵스 > 온프레미스' 카테고리의 다른 글
11장 : 인프라 엔지니어의 성장 (0) 2023.09.20 10장 : 대규모 인프라 (0) 2023.09.20 5장 : 스토리지 (0) 2023.09.20 4장 : 네트워크 (0) 2023.09.20 3장 : 운영체제 (0) 2023.09.20 다음글이 없습니다.이전글이 없습니다.댓글