본문 바로가기

CS study/데이터베이스

(10)
인덱스 확장 기능 사용법 : 인덱스 스킵 스캔 외(친절한 SQL 튜닝) 인덱스 범위 스캔 vs 인덱스 풀 스캔Index Range Scan가장 기본적인 인덱스를 사용한 액세스 방식이다.아래와 같은 그림처럼 인덱스 루트(시작점)까지 수직 이동 후 필요한 범위를 스캔한다.   이전에 이야기했듯, 선두 컬럼을 가공하지 않는 등의 인덱스 순서를 그대로 사용할 수 있는 방법을 사용할 경우 일반적으로 Range Scan이 사용된다.Index Full Scan수직 탐색 없이 바닥의 리프 노드 블록을 ‘전부’ 순회하여 스캔할 경우를 의미한다.    Index Full Scan은 그냥 순차 스캔과 동일한가? (인덱스 풀 스캔의 효용)인덱스 Full Scan과 순차 스캔은 비슷해 보이지만 완전히 동일하지 않다. 인덱스를 읽지만, 정렬된 상태로 인덱스의 모든 엔트리를 순차적으로 읽는 작업이다...
인덱스 기본 사용법 : 연산 최적화(친절한 SQL 튜닝) 인덱스 기본 사용법인덱스 컬럼(선두 컬럼)을 가공하지 않아야 인덱스를 정상적으로 사용할 수 있다.즉, ‘인덱스를 정상적으로 사용한다’ 라는 개념은 리프 블록에서 ‘시작점’ 을 찾아 순차 스캔하며 결과를 찾는 것이다. 인덱스 기본 사용법인덱스 컬럼(선두 컬럼)을 가공하지 않아야 인덱스를 정상적으로 사용할 수 있다.즉, ‘인덱스를 정상적으로 사용한다’ 라는 개념은 리프 블록에서 ‘시작점’ 을 찾아 순차 스캔하며 결과를 찾는 것이다.이것은 결국 B-Tree의 그래프에서 리프 노드를 먼저 찾은 뒤, 인덱스 시작점부터 리프 블록의 일부분만 스캔하는 Range Scan을 의미한다.이는 일반적인 DB의 인덱스 구현은 B+Tree를 기반으로 하므로, 리프 노드에서 시작해 오른쪽 리프 노드로 자연스럽게 넘어가는 범위 탐..
인덱스 구조 및 탐색 : 수직적 탐색 과정과 LMC(친절한 SQL 튜닝) 인덱스 구조 및 탐색 DBMS가 발명된지 수 십년이 지났지만, 사실상 현존하는 SQL의 테이블 스캔 방법은 두 가지다. 1. 테이블 전체를 스캔(Full Scan)2. 인덱스를 사용(Random Access) 이 두 가지 과정에서 당연하게도 인덱스를 사용하는 것이 실제 튜닝을 통해 성능을 개선할 요소가 많다.FS 자체는 그다지 (물리적으로 개선하는 것이 아니라면) 의미가 없을 것이다. 인덱스 튜닝의 핵심 요소 1.  인덱스 스캔 과정에서 발생하는 비효율을 줄이기 (인덱스 스캔 효율 튜닝) 소량 데이터 검색 시에는 인덱스 자체의 튜닝을 줄이는 것이 중요하다.  예시에서는 복합 인덱스의 순서처럼, 중복도가 낮은 순서대로 정렬하는 것의 예시를 들었다.이 경우 테이블 내에서 전체 스캔해야 할 내용은 적어지며, ..
[DB]psql 하드웨어 성능 튜닝 (24.07.10) PostgreSQL을 처음 설치하면 기본 설정으로 작동한다. 하지만 하드웨어 사양에 맞춰 설정을 조정하면 성능을 크게 향상시킬 수 있다.메모리 설정shared_buffers를 늘리면 데이터 캐시가 증가하여 쿼리 성능이 향상된다.work_mem을 조정하면 복잡한 쿼리나 정렬 작업이 빨라진다.CPU 활용max_parallel_workers와 max_worker_processes를 통해 여러 CPU 코어를 효율적으로 사용할 수 있다. 이는 대용량 데이터 처리를 빠르게 해준다.디스크 I/O 최적화effective_io_concurrency를 통해 디스크 작업의 동시성을 최적화하면, 디스크 읽기/쓰기 속도가 향상된다.wal_buffers를 적절히 설정하면 쓰기 작업 성능이 개선된다.이러한 설정 조정을 통해 Pos..
[인덱스] 순차 증가 값은 항상 효율적인가? (24.06.12) 궁금증b-tree 기반의 인덱스에서, '삽입' 연산에서 일반적으로 순차적으로 증가하는 값이 성능상 이점이 있다고 알고 있다.그런데, 이는 Auto-increment같은 옵티마이저가 메타데이터를 통해 예측한 값들이 중점이 되는 이유를 들을 수 있었다. (이는 데이터가 증가할 것을 예상할 수 있기 때문에, 노드에 값을 삽입할 때 빠르게 넣을 수 있게 '예측'할 수 있다.)만약 데이터가 '아무런 메타데이터가 없지만', 실제로는 외부 로직에 의해 항상 순차적으로 증가하는 값이라고 할 때(즉, 옵티마이저는 값을 예상할 수 없지만 실제로는 항상 순차적으로 증가하는 값일때) 이것은 완전한 '랜덤 난수' 에 비해 삽입 측면에서 이점이 있을까?순차적으로 증가하는 값의 장점 : 리프 노드 분할 감소B-tree 인덱스는 데..
3주차 - 랜덤I/O, 순차 I/O와 인덱스, B+Tree, B-Tree 질문 1. 랜덤 I/O와 순차 I/O에 대해서 설명해주세요. 랜덤 I/O vs 순차 I/O 랜덤 I/O는 디스크에서 비연속적인 위치에 있는 데이터를 읽는 방식이며, 순차 I/O는 데이터를 연속적인 순서로 읽는 방식이다. - 당연하게도 순차 I/O가 더 빠르다. (디스크 상의 연속적인 위치에 저장) - 데이터베이스 시스템에서는 종종 랜덤 I/O가 필요하다. 데이터베이스에는 다양한 쿼리가 수행되며, 이 쿼리들은 테이블의 여러 위치에 저장된 데이터를 요구하기 때문. 특히 인덱스 검색이나 특정 조건에 맞는 레코드 검색과 같은 작업에서 랜덤 I/O가 필수적이다. - 인덱스 레인지 스캔은 데이터를 읽기 위해 주로 랜덤 I/O를 사용하며, 풀 테이블 스캔은 순차 I/O를 사용한다. 2. 인덱스에 대해서 설명해주세요...
DataBase 2주차 정리 - SQL, DDL, DML, DCL, JOIN, 쿼리 순서 질문 1. SQL에 대해서 설명해주세요. C언어와 같은 프로그래밍 언어와 어떤차이가 있나요? 특정 어휘와 특정 구문을 갖는 프로그래밍 언어의 정의를 고려하면 SQL은 프로그래밍 언어라고 할 수 있다. 그러나 범용 사용이 가능한 GPL(General Purpose Language)보다는 실제로는 DSL(Domain-Specific Language) 에 가깝다. SQL은 데이터베이스 관리 및 데이터 조작을 위해 설계된 특수 목적 언어(Domain-Specific Language, DSL)이다. 이 언어는 데이터를 저장, 검색, 수정, 삭제하는 등의 기능을 제공한다. SQL과 DSL SQL은 프로그래밍 언어의 일반적 정의에 부합한다. 특정 어휘와 구문을 사용하며, 명령을 실행할 수 있기 때문이다. 그러나 일반..
1주차 스터디 노트(DB, 스키마, RDBMS, Key, 제약조건) 1. 파일시스템과 데이터베이스의 차이점에 대해서 설명해주세요. 파일 시스템은 간단한 데이터 저장 목적으로 사용되고, 데이터베이스는 데이터의 일관성, 성능, 보안, 중복 최소화 등 다양한 측면에서 향상된 기능을 제공한다. 언뜻 보면 두 구조는 비슷해 보인다. 하지만 핵심적으로 말하자면 다음과 같은 차이가 있을 것이다. 파일시스템은 데이터를 파일 형태로 저장하며, 데이터베이스는 구조화된 방식으로 데이터를 저장한다. 파일 시스템? : 데이터를 파일에 저장 파일시스템은 운영 체제의 일부로, 파일을 저장하고 관리하는 방식이다. 데이터 접근과 관리가 기본적이고, 복잡한 쿼리나 트랜잭션 지원이 없다. 데이터베이스? : 정의된 데이터 형식, 구조화된 데이터를 저장 데이터를 테이블 등의 구조로 저장하며, 복잡한 쿼리, ..