정규화에 대해서 설명해주세요.
기본적으로 데이터의 무결성(Integrity)를 유지하기 위한 행위이다.
(여기서 무결성이란 정확성과 일관성을 유지하는 것이다!)
그러기 위해서 테이블 간의 중복된 데이터를 허용하지 않는다.
- 제 1 정규화
- 테이블의 컬럼이 원자값(Atomic Value, 하나의 값)을 갖도록 태이블을 분해하는 것
- 제 2 정규화
- 완전 함수 종속을 만족하도록 테이블을 분해하는 것
- 기본키의 부분집합이 결정자가 되어선 안됨.
- 제 3 정규화
- 이행적 종속을 없애도록 테이블을 분해하는 것
- BCNF 정규화(Boyce-Codd Normal Form)
- 모든 결정자가 후보키가 되도록 테이블을 분해하는 것
https://www.youtube.com/watch?v=pMcv0Zhh3J0
JOIN에 대해서 설명해주세요.
관계형 데이터베이스에서는 중복 데이터를 피하기 위해서 데이터를 쪼개 여러 테이블로 나눠서 저장함.
이렇게 분리되어 저장된 데이터에서 원하는 결과를 다시 도출하기 위해서는 여러 테이블을 조합할 필요가 있음.
관계형 데이터베이스에서는 JOIN(조인) 연산자를 사용해 관련있는 컬럼 기준으로 행을 합쳐주는 연산임.
RDBMS vs NOSQL에 대해서 설명해주세요.
RDBMS
기존의 RDBMS에서의 저장 방식은 SQL에 의해 저장되고 있으며 정해진 스키마에 따라 데이터를 저장하여야 함. RDBMS의 R은 Relational의 약자로 RDBMS는 관계형 데이터베이스 관리 시스템을 의미함. 이름과 같이 RDBMS는 RDB를 관리하는 시스템이며 RDB는 관계형 데이터 모델을 기초로 두고 모든 데이터를 2차원 테이블 형태로 표현하는 데이터베이스임.
관계형 데이터베이스(RDMBS)는 구성된 테이블이 다른 테이블들과 관계를 맺고 모여있는 집합체로 이해할 수 있음.
관계형 데이터베이스(RDMBS)에서는 이러한 관계를 나타내기 위해 외래 키(foreign key)라는 것을 사용함.
이러한 테이블간의 관계에서 외래 키를 이용한 테이블 간 Join이 가능하다는 게 RDBMS의 가장 큰 특징임.
장점
- RDBMS는 위에서 설명을 하였듯이 정해진 스키마에 따라 데이터를 저장하여야 하므로 명확한 데이터 구조를 보장함.
- 또한 관계는 각 데이터를 중복없이 한 번만 저장할 수 있음.
단점
- 테이블간테이블 간 관계를 맺고 있어 시스템이 커질 경우 JOIN문이 많은 복잡한 쿼리가 만들어질 수 있음.
- 성능 향상을 위해서는 서버의 성능을 향상 시켜야하는 Scale-up만을 지원합니다. 이로 인해 비용이 기하급수적으로 늘어날 수 있음.
- 스키마로 인해 데이터가 유연하지 못함. 그렇기 때문에 나중에 스키마가 변경 될 경우 번거롭고 어려움.
NOSQL
NoSQL이란(Not Only SQL)의 약자로 말 그대도 위에서 설명한 RDB 형태의 관계형 데이터베이스가 아닌 다른 형태의 데이터 저장 기술을 의미함. 또한 NoSQL에서는 RDBMS와는 달리 테이블 간 관계를 정의하지 않음. 데이터 테이블은 그냥 하나의 테이블이며 테이블 간의 관계를 정의하지 않아 일반적으로 테이블 간 Join도 불가능!
NoSQL은 점점 빅데이터의 등장으로 인해 데이터와 트래픽이 기하급수적으로 증가함에 따라 RDBMS에 단점인 성능을 향상시키기 위해서는 장비가 좋아야 하는 Scale-Up의 특징이 비용을 기하급수적으로 증가시키기 때문에 데이터 일관성은 포기하되 비용을 고려하여 여러 대의 데이터에 분산하여 저장하는 Scale-Out을 목표로 등장!
장점
- NoSQL에서는 스키마가 없기 때문에 유연하며 자유로운 데이터 구조를 가질 수 있음. 언제든 저장된 데이터를 조정하고 새로운 필드를 추가할 수 있음.
- 데이터 분산이 용이하며 성능 향상을 위한 Saclue-up 뿐만이 아닌 Scale-out 또한 가능.
단점
- 데이터 중복이 발생할 수 있으며 중복된 데이터가 변경 될 경우 수정을 모든 컬렉션에서 수행을 해야 함.
- 스키마가 존재하지 않기에 명확한 데이터 구조를 보장하지 않으며 데이터 구조 결정가 어려울 수 있음.