본문 바로가기

Linux 리눅스 & 하둡 & hive/하둡

하둡 시스템 구조와 순서

시스템 순서 

빅데이터 분석           R , Python 
    ↑
빅데이터 저장           Mongodb  hbase   cassandra  couchdb (테이블 생성가능한 DB)
    ↑
분산 처리 지원          hive, pig, sqoop(오라클 --> Hive), zookeeper( 분산 파일 시스템을 관리하는툴)
    ↑
분산 배치 처리          hadoop 하둡 - mapReduce
    ↑
분산 파일 처리          hadoop 하둡 - HDFS(실제저장 장소) 

HDFS -> 는 여러대의 컴퓨터를 한대의 서버처럼 보이게 해 준다. 

야후의 경우는 약 5만대의 서버(컴퓨터)를 연결해 하둡 운영
페이스북은 약 1만대의 서버를 연결해 하둡을 운영하고있다.

 

  • 하둡 구성도
    1. 네임 노드 : 메타 데이터가 위치하는곳을 갖고 있는곳 (데이터는 저장하지 않음)
    2. 보조 네임 노드 : 주기적으로 네임노드의 메타 데이터를 백업하고, 메인노드가 다운 되었을 때 네임 노드의 역할을 한다.
    3. 데이터 노드 : emp.csv 와 같은 데이터를 저장하는 컴퓨터들 , 원본 1개에 백업2개 를 항상 유지한다.
    • 만약 컴퓨터 8대를 하둡 파일 시스템 으로 구성 한다면 ? 네임노드 1대 보조네임노드1대 , 6대의 데이터 노드들로 구성 한다.
  • 노드 : 컴퓨터 1대 메타 데이터 (meta data) : emp.csv 같은 데이터가 데이터 노드들 중 어느 컴퓨터에 있다 라는 위치정보에 대한 데이터

'Linux 리눅스 & 하둡 & hive > 하둡' 카테고리의 다른 글

Linux 가상환경 내 하둡 설치  (0) 2022.03.23