구조화 형태로 분류
1. 정형 데이터 structured data
미리 정해진 구조에 따라 저장된 구조화된 데이터. 구조를 만들어 안에 데이터를 저장한다. 일반적으로 테이블 형태로 나타나며, 열 column은 데이터 유형에 따라 정의, 행 row은 실제 데이터를 포함한다.
- 특징
- 데이터 분석, 처리가 용이
- 데이터베이스를 통해 저장, 관리, 검색이 가능
- 데이터 무결성 Integrity 유지 → 데이터 품질 향상
2. 반 정형 데이터 semi-structured data
구조를 가지고 있지 않다. 하지만 일부 구조화된 정보를 가지고 있다. 데이터 내용 안에 구조에 대한 설명이 함께 존재한다. 데이터 구조를 파악하기 위한 parsing 과정이 필요하다.
- parsing 파싱
- 반 정형 데이터에서 필요한 정보를 추출하기 위해 데이터, 구문을 분석하는 과정
- 해당 데이터의 형식과 구조를 이해해야 한다. HTML, XML, JSON 형식 등
- 정규 표현식 Regular Expression: 특정 패턴을 가진 문자열을 추출 파서 Parser: 문서의 구조와 형식에 따라 데이터를 추출할 수 있도록 도와준다.
3. 비 정형 데이터 unstructured data
정해진 구조가 없이 저장된 데이터. 영상, 이미지, PDF 등
특성으로 분류
1. 범주형 데이터 categorical data
범주로 구분할 수 있는 값, 종류를 나타내는 값을 가진 데이터이다. 질적 데이터, 정성적 데이터라고도 한다. 정량적으로 측정 되지 않으며(산술 연산 x), 명목형 데이터와 순서형 데이터로 구분한다.
- 명목형 데이터 nominal data : 각 범주 간 순서가 없는 데이터. 순서나 계층이 없어 일반적으로 더미 변수로 변환하여 분석.
- 순서형 데이터 ordinal data : 범주 간 순서가 있는 데이터. 범주의 순서를 고려해, 산술 계산을 수행할 수 있다.
2. 수치형 데이터 numerical data
산술 연산이 가능한 숫자 값을 가진 데이터로 양적으로 측정 될 수 있다. 양적 데이터, 정량적 데이터라고도 한다.
- 이산형 데이터 discrete data : 유한한 값을 가지는 데이터로, 개수를 셀 수 있다. 정수형 데이터로 측정 → 정확한 측정 가능
- 연속형 데이터 continuous data : 무한한 값을 가지는 데이터로 측정을 통해 얻어지는 연속적으로 이어진 숫자 값을 가진다. 측정 시점에 따라서 값이 달라질 수 있으며, 일반적으로 실수형 데이터로 측정 된다.
'Database > basic' 카테고리의 다른 글
[SQL] ERD와 UML의 관계(Relationship) 차이 (0) | 2025.02.24 |
---|---|
[DB] 데이터베이스란? (0) | 2023.07.31 |