데이터의 객체와 속성 (Object and Attribute of Data)

Posted by
Dataset

데이터 세트(Dataset)는 데이터 객체(Data Object)로 구성되며, 데이터 객체는 엔티티(Entity, 생각하는 개념 또는 의미 있는 정보의 단위)를 표현한다.

데이터 베이스에서 행은 데이터 객체에 해당하고, 열은 속성(Attribute)을 의미한다.
속성은 데이터 객체의 특성이나 특징을 나타낸다.

또한 속성은 머신러닝에 사용되는 데이터 항목이다. 속성은 변수, 필드, 또는 예측 변수라고도 불린다.

속성 유형에 대한 이해는 데이터 전처리의 첫 번째 단계이다. 다양한 유형의 속성을 구분한 다음 데이터를 사전 처리 하계 된다. 속성의 유형은 정성적 속성과, 정량적 속성으로 나눌 수 있다.

  • 정성적(Qualitative): 명목형, 순서형, 이진형
  • 정량적(Quantitative): 숫자, 불연속형, 연속형
Type of Attribute

Table of Contents 

Qualitative

  • 명목 속성(Nominal, 이름과 관련): 명목 속성의 값은 사물의 이름이나 일종의 상징이다. 명목 속성 값은 어떤 범주 또는 상태를 나타내므로 명목 속성은 범주 속성이라고도 하며 명목 속성 값 사이에는 순서(순위, 위치)가 없다.
  • 순서 속성(Ordinal): 의미 있는 순서나 순위가 있는 값을 포함하지만 값 사이의 크기는 실제로 알 수 없으며, 중요한 것은 표시하지만 중요도를 나타내지 않는 값의 순서이다.
  • 이진 속성(Binary): 이진 데이터에는 2개의 값이나 상태만 있다.
    • 대칭(Symmetric): 두 값 모두 똑같이 중요하다.
    • 비대칭(Asymmetric): 두 값 중 하나가 다른 값보다 더 중요하다.

Quantitative

  • 숫자 속성(Numeric): 숫자 속성은 정수 또는 실수 값으로 표시되는 측정 가능한 양이기 때문에 정량적이다. 숫자 속성은 간격 및 비율 의 2가지 유형이 있습니다
    • 간격(등간) 척도(Interval Scale):  속성에는 값 이 있으며 그 차이는 해석 가능하지만 숫자 속성에는 올바른 기준점이 없거나 영점이라고 부를 수 있다. 데이터는 간격 척도로 더하거나 뺄 수 있지만 곱하거나 나눌 수는 없다. 
      온도를 예로 생각 할 수 있다. 하루의 기온이 다른 날의 두 배라면 어느 날이 다른 날의 두 배라고 말할 수는 없다. 
    • 비율 척도(Ratio Scale): 속성은 영점이 고정된 숫자 속성이다 . 측정이 비율 척도이면 값을 다른 값의 배수(또는 비율)라고 말할 수 있다. 값이 정렬되고 값 간의 차이를 계산할 수도 있으며 평균, 중앙값, 최빈값, 분위수 범위 및 5개의 숫자 요약이 제공될 수 있다.
  • 이산 속성(Discrete): 이산 데이터는 유한한 값을 가지며 숫자일 수 있고, 범주형일 수도 있다. 이러한 속성에는 유한하거나 셀 수 있는 무한한 값 집합이 있다.
  • 연속 속성(Continuous): 연속 데이터는 상태가 무한하다. 연속 데이터는 float 유형이다. 2와 3 사이에 많은 값이 있을 수 있다. 

Leave a Reply

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다