
시스템 순서
빅데이터 분석 R , Python
↑
빅데이터 저장 Mongodb hbase cassandra couchdb (테이블 생성가능한 DB)
↑
분산 처리 지원 hive, pig, sqoop(오라클 --> Hive), zookeeper( 분산 파일 시스템을 관리하는툴)
↑
분산 배치 처리 hadoop 하둡 - mapReduce
↑
분산 파일 처리 hadoop 하둡 - HDFS(실제저장 장소)
HDFS -> 는 여러대의 컴퓨터를 한대의 서버처럼 보이게 해 준다.
야후의 경우는 약 5만대의 서버(컴퓨터)를 연결해 하둡 운영
페이스북은 약 1만대의 서버를 연결해 하둡을 운영하고있다.
- 하둡 구성도
- 네임 노드 : 메타 데이터가 위치하는곳을 갖고 있는곳 (데이터는 저장하지 않음)
- 보조 네임 노드 : 주기적으로 네임노드의 메타 데이터를 백업하고, 메인노드가 다운 되었을 때 네임 노드의 역할을 한다.
- 데이터 노드 : emp.csv 와 같은 데이터를 저장하는 컴퓨터들 , 원본 1개에 백업2개 를 항상 유지한다.
- 만약 컴퓨터 8대를 하둡 파일 시스템 으로 구성 한다면 ? 네임노드 1대 보조네임노드1대 , 6대의 데이터 노드들로 구성 한다.
- 노드 : 컴퓨터 1대 메타 데이터 (meta data) : emp.csv 같은 데이터가 데이터 노드들 중 어느 컴퓨터에 있다 라는 위치정보에 대한 데이터
'Linux 리눅스 & 하둡 & hive > 하둡' 카테고리의 다른 글
Linux 가상환경 내 하둡 설치 (0) | 2022.03.23 |
---|