9장 : 인프라 운영

[ 데브옵스/온프레미스 ]

9장 : 인프라 운영

2023년 09월 20일 19시 50분 27초에 업로드 된 글입니다.

작성자: 재형이

장애 대응

하드웨어와 소프트웨어의 안정성 및 가용성은 중요한 요소입니다. 하드웨어는 언젠가 고장 날 수 있으므로 서비스 중단을 방지하기 위해 다양한 기술이 사용됩니다. 이중화된 하드웨어에서 고장난 부품을 교체하는 "핫스왑" 기술이나 이상을 감지하고 자동으로 보정하는 "ECC 기능"은 하드웨어 가용성을 높여줍니다. 또한 하이엔드 서버에서는 실시간 감시와 경고 시 업체의 유지보수팀이 수리하는 서비스도 제공됩니다.
소프트웨어는 버그가 포함될 가능성이 있으며, 실제 환경에서의 테스트 이외에도 조작이나 악의적인 접근으로 인한 문제가 발생할 수 있습니다. 이런 경우 인프라 엔지니어는 시스템 장애를 감지하거나 버그를 발견하기 위해 감시 솔루션을 사용합니다. 감시 솔루션을 신중하게 선택하고 모든 장치에서 발생할 수 있는 장애 패턴을 감지하도록 엄격하게 설정하는 것이 중요합니다.
요약하면, 하드웨어와 소프트웨어의 안정성을 유지하고 서비스 가용성을 높이기 위해 감시 솔루션은 인프라 엔지니어에게 중요한 도구입니다. 하드웨어 고장 및 소프트웨어 버그로 인한 문제를 미리 감지하여 시스템 장애를 방지하고 원활한 서비스를 유지하는 데 도움이 됩니다.

병목 현상을 해결하자

IT 시스템에서 병목 현상은 전체 시스템 응답에 부정적인 영향을 미치므로, 병목을 해결할 때에는 전체 시스템의 관점에서 고려해야 합니다. 부분적인 문제 해결만으로는 다른 부분에서 발생하는 병목을 완전히 해소할 수 없습니다.
예를 들어 웹 서버 부족과 데이터베이스 서버 메모리 부족이 동시에 발생한다면, 데이터베이스 서버 메모리를 확장해도 웹 서버 부족은 여전히 존재하므로 전체 시스템의 응답 속도는 개선되지 않습니다.
특히 접속이 급증하는 시스템에서는 계획적인 병목 대책이 필요합니다. 이러한 상황에서는 하드웨어 자원이 동시에 고갈되는 것을 방지하기 위해 단계적인 확장 계획을 수립하고, 시스템 확장과 병목 해소 작업을 병행해야 합니다.
시스템에서 병목이 발생하기 쉬운 부분은 다양합니다. 흔한 병목 발생 부분으로는 다음과 같은 것들이 있습니다

코어 스위치의 처리량 한계
L2 스위치의 처리량 한계
웹 서버의 메모리 부족
데이터베이스 서버의 CPU 및 메모리 부족
데이터베이스 서버의 디스크 I/O

이러한 병목 현상을 해결하려면 전체 시스템 구성을 고려하고, 필요한 자원을 추가하거나 최적화하는 방안을 고려해야 합니다.

1. 네트워크 장비의 병목 현상을 해결

각 포트의 물리 인터페이스 속도 확인
- 조사 방법
  - 각 네트워크 장비의 포트는 트래픽을 처리할 수 있는 속도로 구성되어야 합니다. 먼저, 해당 포트의 물리 인터페이스 속도를 확인합니다. 예를 들어, 1Gbps 인터페이스인 경우, 실제 IN 및 OUT 트래픽이 각각 1Gbps 미만인지 확인합니다. 이를 모니터링 도구 또는 네트워크 장비의 CLI(Command Line Interface)를 사용하여 확인할 수 있습니다.
- 대책
  1. 서버를 분산: 트래픽이 과도하게 집중된 포트의 부하를 분산하기 위해 서버를 여러 대로 분산하거나, 로드 밸런서를 사용하여 트래픽을 균형있게 분배합니다.
  2. 더 빠른 인터페이스로 업그레이드: 네트워크 장비의 물리 인터페이스를 더 높은 속도로 업그레이드하여 대역폭을 향상시킵니다. 예를 들어, 1Gbps에서 10Gbps로 업그레이드하는 것이 가능합니다.
네트워크 장비의 전송 능력 확인
- 조사 방법
  - 네트워크 장비의 전송 능력을 확인하려면 패킷 드롭이 발생하는지 여부와 전송 능력 부족과 관련된 로그를 검토합니다. 이를 통해 현재 사용 중인 장비의 전송 능력에 한계가 있는지 확인할 수 있습니다.
- 대책
  1. 네트워크 장비 교체: 네트워크 장비의 전송 능력이 부족한 경우, 상위 기종으로 교체하거나 더 강력한 장비로 업그레이드합니다.
  2. 캐시 메모리 추가: 데이터의 캐싱을 통해 전송 효율을 향상시킬 수 있습니다. 따라서 캐시 메모리를 추가하거나 최적화하여 패킷 처리를 더 빠르게 수행할 수 있습니다.

이러한 접근 방식을 사용하여 네트워크 장비의 병목 현상을 조사하고 해결할 수 있으며, 네트워크의 성능을 최적화하여 원활한 데이터 흐름을 유지할 수 있습니다.

2. 서버 장비의 병목 현상을 해결

프론트엔드 서버의 응답 저하 확인
- 조사 방법
  - 각 서버의 응답 시간을 정기적으로 모니터링하여 극단적인 응답 저하가 발생하는지 확인하거나 사용자로부터 응답 속도와 관련된 질문이 들어왔는지 확인합니다.
- 대책
  1. 백엔드 서버 문제 파악: 먼저, 프론트엔드 서버 문제인지 아니면 백엔드 서버(데이터베이스 등)의 문제인지 파악합니다. 백엔드 서버에서 CPU, 메모리, 네트워크, 디스크 I/O의 사용 상황을 실시간으로 확인하고, 어떤 자원이 과도하게 사용되고 있는지 확인합니다.
  2. 하드웨어 리소스 증설: 자원 부족으로 인한 응답 저하일 경우, 다음 조치를 취합니다
    1. CPU 부족: CPU의 소켓 수 또는 코어 수를 늘리거나, 더 빠른 CPU로 교체하거나, 서버 자체를 상위 기종으로 교체합니다.
    2. 메모리 부족: 메모리 용량을 늘립니다.
    3. 네트워크 부족: 복수의 네트워크 인터페이스를 묶어 대역폭을 늘립니다. 여전히 부족하다면 서버 수를 늘려 부하를 분산합니다.
    4. 디스크 I/O 부족: 빠른 스토리지로 업그레이드하거나 SSD 또는 엔터프라이즈 플래시 메모리로 교체합니다. 디스크 I/O 부하가 여전히 높다면 프로그램을 수정하여 부하를 분산합니다.
디스크 I/O 값 확인
- 조사 방법
  - 디스크 I/O 값이 높을 때는 하드웨어 고장 가능성도 고려해야 합니다. 불량 섹터, RAID 컨트롤러 고장, 핫스페어 디스크 활성화 등이 원인일 수 있습니다.
- 대책
  1. 디스크 고장 확인: 디스크 I/O 부하가 높을 때 디스크 고장 가능성을 고려하고, 디스크 상태를 확인합니다. 필요한 경우 디스크 교체를 진행합니다.
  2. RAID 컨트롤러 확인: RAID 컨트롤러의 고장으로 인한 문제일 경우, 컨트롤러 상태를 점검하고 필요한 조치를 취합니다.
  3. 프로그램 수정: 디스크 I/O 부하가 지속적으로 높다면, 프로그램을 수정하여 디스크 부하를 분산하고 최적화합니다.

서버 장비의 병목 현상을 정확히 파악하고 이에 맞는 대책을 취하는 것은 시스템의 안정성과 성능 유지에 중요합니다.

MSP (Managed Service Provider)

MSP(Managed Service Provider)는 IT 인프라의 운영 및 관리를 대행하는 업체를 말합니다. 이러한 서비스를 필요로 하는 기업은 MSP를 선택할 때 다음과 같은 요소를 고려해야 합니다

기업의 신뢰성
- MSP 업체를 선택할 때, 기업의 신뢰성은 매우 중요합니다. 중요한 서버 및 인프라 운영을 위탁할 때, 신뢰할 수 있는 업체를 선택해야 합니다. 업체의 신뢰성을 평가하기 위해 MSP의 컴플라이언스(규정 준수) 측면을 검토하고 재무 상황 등을 충분히 조사해야 합니다.
커뮤니케이션 능력
- 인프라 운영을 MSP에게 위임하게 되면, MSP 엔지니어와의 원활한 커뮤니케이션이 필수적입니다. MSP 업체의 기술 담당자와의 커뮤니케이션이 원활하고 협력적인지 확인하는 것이 중요합니다.
유연성
- 인프라 운영을 MSP에게 위임하게 되면, MSP 엔지니어와의 원활한 커뮤니케이션이 필수적입니다. MSP 업체의 기술 담당자와의 커뮤니케이션이 원활하고 협력적인지 확인하는 것이 중요합니다.
기술력
- MSP 업체가 IT 기술을 전문으로 다루는 업체여야 합니다. 기술력이 부족한 업체를 선택하면 인프라 운영 관리에 문제가 발생할 수 있으므로 기술 능력을 검토해야 합니다.
비용 대비 효과
- 가격은 중요한 요소이지만, 싼 가격만을 추구해서는 안 됩니다. 비용 대비 효과를 고려해야 합니다. 견적을 받아서 각 업체의 가격 차이를 확인하고, 어느 부분에서 가격 차이가 나는지 분석해야 합니다.

가격은 중요한 요소이지만, 싼 가격만을 추구해서는 안 됩니다. 비용 대비 효과를 고려해야 합니다. 견적을 받아서 각 업체의 가격 차이를 확인하고, 어느 부분에서 가격 차이가 나는지 분석해야 합니다.

펌웨어 (Firmware)

펌웨어는 하드웨어를 제어하는 프로그램입니다. 주로 마이크로프로세서 또는 칩에 저장되어 하드웨어 동작을 조정하고 제어합니다.

펌웨어의 사용 예

서버 본체 (BIOS): 컴퓨터 부팅 및 기본 설정을 관리합니다.
RAID 보드/HBA 보드: 디스크 어레이 관리와 데이터 보호를 위한 펌웨어를 포함합니다.
하드디스크 / SSD: 저장 장치의 퍼포먼스 및 안정성을 향상시키는 펌웨어가 포함됩니다.
네트워크 기기 본체: 스위치, 라우터 등의 네트워크 장비에서 동작하며 네트워크 트래픽을 관리합니다.
스토리지 본체: 스토리지 장치의 성능 및 데이터 무결성을 관리하는 펌웨어가 내장되어 있습니다.

펌웨어의 버전과 업데이트

하드웨어를 구매할 때, 최신 펌웨어 버전이 이미 적용되어 있습니다. 그러나 시간이 지남에 따라 새로운 펌웨어 업데이트가 출시됩니다.
최신 펌웨어에는 버그 수정과 성능 향상을 위한 업데이트가 포함됩니다.
펌웨어 업데이트는 "권장(Recommanded)", "필요(Required)", "필수(Critical)" 등의 수준으로 분류됩니다.
업데이트 여부를 결정할 때, 안정성과 보안을 위한 업데이트는 중요하지만, 일부 엔지니어들은 새로운 버그가 도입될 가능성을 염두에 둡니다.
필요한 경우, 펌웨어 업데이트를 주기적으로 적용하며, 중요한 업데이트는 놓치지 않도록 관리해야 합니다.

하드웨어의 사후 지원

하드웨어를 구매할 때, 제조업체는 보증 기간을 제공합니다. 보증 기간 내에 하드웨어 고장 시 무상 수리 또는 교환을 지원합니다.
보증 기간 종료 이후에는 보증 연장을 선택할 수 있는 경우도 있습니다.
하드웨어의 사후 지원은 고장 시 신속한 대응을 위해 중요합니다.
일부 하드웨어 제조업체들은 고객에게 상위 수준의 지원 서비스를 제공합니다.
이러한 서비스는 하드웨어 고장 뿐만 아니라 운영체제나 애플리케이션 수준의 문제까지 조사하고 해결하는 데 도움을 줍니다.

'데브옵스 > 온프레미스' 카테고리의 다른 글

11장 : 인프라 엔지니어의 성장 (0)	2023.09.20
10장 : 대규모 인프라 (0)	2023.09.20
5장 : 스토리지 (0)	2023.09.20
4장 : 네트워크 (0)	2023.09.20
3장 : 운영체제 (0)	2023.09.20

다음글이 없습니다.

이전글이 없습니다.