이 문서는 Google Cloud Translation API를 사용해 자동 번역되었습니다.
어떤 문서는 원문을 읽는게 나을 수도 있습니다.
Hadoop은 컴퓨터 클러스터에서 매우 큰 데이터 세트의 분산 저장 및 분산 처리에 사용되는 오픈 소스 소프트웨어 프레임워크입니다. 단일 서버에서 각각 로컬 계산 및 스토리지를 제공하는 수천 대의 시스템으로 확장하도록 설계되었습니다.
Hadoop은 상용 하드웨어로 구축된 컴퓨터 클러스터에서 매우 큰 데이터 세트의 분산 저장 및 분산 처리를 위한 소프트웨어 프레임워크입니다. 이것은 분산 파일 시스템(HDFS)과 MapReduce 프로그래밍 모델을 사용하여 매우 큰 데이터 세트의 분석 및 변환을 위한 프레임워크를 제공합니다.
Hadoop은 큰 데이터 세트를 더 작은 청크로 나눈 다음 각 청크를 클러스터의 노드에 할당하는 방식으로 작동합니다. 각 노드는 할당된 청크를 처리하고 결과를 다시 마스터 노드로 보냅니다. 그런 다음 마스터 노드는 모든 결과를 단일 출력으로 결합합니다. 이 접근 방식을 통해 여러 노드에 걸쳐 매우 큰 데이터 세트를 분산 처리하고 컴퓨팅 리소스를 효율적으로 사용할 수 있습니다.
Hadoop은 확장성이 뛰어나고 내결함성이 있도록 설계되었습니다. 상용 하드웨어에서 실행할 수 있으며 단일 서버에서 수천 대의 시스템으로 확장할 수 있습니다. 또한 데이터 복제에 대한 기본 제공 지원을 제공하여 노드 장애 시 데이터가 손실되지 않도록 합니다.
Hadoop은 웹 인덱싱, 데이터 마이닝, 로그 처리, 기계 학습 등과 같은 다양한 작업을 위해 업계에서 널리 사용됩니다. 또한 대규모 데이터 세트의 연구 및 분석을 위해 과학계에서 사용됩니다.
Hadoop은 2005년에 Doug Cutting과 Mike Cafarella에 의해 만들어졌습니다. 처음에는 웹 검색을 위한 분산 컴퓨팅 플랫폼을 제공한다는 목표로 Apache Nutch 프로젝트의 일부로 개발되었습니다.
2006년 야후! 웹 검색 인덱싱을 위한 내부 플랫폼으로 Hadoop을 채택했습니다. 이것은 기술을 대중화하는 데 도움이 되었고 2007년 Apache Hadoop 프로젝트의 생성으로 이어졌습니다.
그 이후로 Hadoop은 업계에서 가장 널리 사용되는 분산 컴퓨팅 프레임워크 중 하나가 되었습니다. 소규모 신생 기업에서 대기업에 이르기까지 모든 규모의 조직에서 사용합니다.
분산 저장소: Hadoop은 클러스터의 여러 노드에 데이터를 저장하기 위한 분산 파일 시스템(HDFS)을 제공합니다. 높은 처리량, 확장성 및 내결함성을 위해 설계되었습니다.
분산 처리: Hadoop은 MapReduce 프로그래밍 모델을 사용하여 대규모 데이터 세트의 분산 처리를 위한 프레임워크를 제공합니다.
내결함성: Hadoop은 노드 장애 시 데이터가 손실되지 않도록 데이터 복제를 기본적으로 지원하여 내결함성이 매우 높도록 설계되었습니다.
확장성: Hadoop은 단일 서버에서 각각 로컬 컴퓨팅 및 스토리지를 제공하는 수천 대의 시스템으로 확장되도록 설계되었습니다.
Hadoop은 일반적으로 업계에서 대규모 데이터 세트를 처리하는 데 사용됩니다. 예를 들어 Amazon, Facebook 및 Twitter와 같은 회사에서 데이터 마이닝, 웹 인덱싱 및 로그 처리를 위해 사용합니다.
장점:
단점:
Apache Spark: Hadoop 위에 구축된 오픈 소스 분산 컴퓨팅 프레임워크입니다.
Apache Flink: 실시간 데이터 처리를 위한 오픈 소스 분산 스트리밍 처리 프레임워크입니다.
Apache Kafka: 실시간 데이터 파이프라인 및 스트리밍 애플리케이션을 구축하기 위한 오픈 소스 분산 스트리밍 플랫폼입니다.