globe 정형 데이터와 비정형 데이터의 차이점(Structured, Unstructured Data, What is Difference?) AI Research, Data Science

정형 데이터와 비정형 데이터의 차이점(Structured, Unstructured Data, What is Difference?)

Posted by

정형 데이터(Structured Data) 란?
정형 데이터는 구조화된 데이터라고도 말하며 표준화된 형식이고, 구조가 잘 정의되어 있으며, 데이터 모델을 준수하고, 지속적인 순서를 따르고, 인간과 프로그램이 쉽게 액세스할 수 있는 데이터를 의미한다.

모든 데이터는 동일하게 생성되지 않는다.
일부 데이터는 표준화되어 구조를 잘 따르고 있지만, 대부분은 표준화되어 있지 않다.

구조화된 정형 데이터의 예로는 날짜, 이름, 주소, 신용 카드 번호 등이 있다.
정형 데이터의 이점으로는 사용 및 액세스가 용이한 반면 데이터가 경직되는 단점이 있다.

정형 데이터의 장점

  • 기계 학습(Machine Learning) 알고리즘에서 쉽게 사용 가능하다.
    구조화 되고 조직화된 정형데이터는 ML 데이터의 조작 및 쿼리를 용이하게 한다.
  • 비지니스 사용사자 쉽게 사용 가능하다.
    정형데이터는 다양한 데이터 유형과 작동 방식에 대한 심층적인 이해가 필요하지 않다.
    데이터 주제에 대한 기본적인 이해만으로도 사용자는 데이터를 쉽게 액세스하고 사용 가능하다.
  • 더 많은 도구로 액세스가 가능하다
    정형 데이터가 비정형 데이터보다 먼저 존재하므로 정형데이터를 사용하고 분석하는데 사용할 수 있는 도구가 더 많다.

정형 데이터의 단점

  • 제한된 사용
    미리 정의된 구조의 정형 데이터는 의도된 용도로만 사용가능하여, 유연성과 유용성이 제한된다.
  • 제한된 스토리지 옵션
    정형 데이터는 이미 구조화 되어 있으므로 엄격한 스키마(데이터 웨어하우스 등)가 있는 데이터 스토리지에 저장된다. 따라서 데이터 요구 사항이 변경되면 모든 정형 데이터를 업데이트해야 하므로 막대한 시간과 리소스가 소요된다.
blue 정형 데이터와 비정형 데이터의 차이점(Structured, Unstructured Data, What is Difference?) AI Research, Data Science
Source: PIRO

비정형 데이터(Unstructured Data) 란?
비정형 데이터는 비구조화 데이터라도고 말하며, 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 말한다.
비정형 정보는 일반적으로 텍스트 중심으로 되어 있으나, 날짜, 숫자, 사실과 같은 데이터도 포함할 수 있다. 정형 데이터에 비해 변칙과 모호함이 발생하므로 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만든다.

Wikipedia

비정형 데이터, 비구조화된 데이터는 기존의 데이터 도구 및 방법으로는 처리 및 분석할 수 없다. 구조화 되지 않은 데이터에는 사전에 정의된 데이터 모델이 없으므로 비관계형(NoSQL) 데이터베이스에서 가장 잘 관리된다. 또는 데이터 레이크(Data Lake)를 사용하여 데이터를 원시 형식으로 보존하는 것이 가능하다.

특히, 최근에는 비정형 데이터의 중요성이 매우 부각되고 있다. 산업 현장에서 생산되는 데이터의 80%는 비정형 데이터이며, 기업이 중요시하는 데이터의 95%가 비정형 데이터이다.

비정형 데이터의 장점

  • 정의되지 않은 기본 형식
    저장된 비정형 데이터는 필요할 때까지 정의되지 않은 상태를 유지한다. 필요한 데이터만 준비하고 분석할 수 있도록 한다.
  • 빠른 수집 속도
    데이터를 미리 정의할 필요가 없기 때문에 빠르고 쉽게 수집할 수 있다
  • 데이터 레이크 스토리지
    대용량 스토리지와 종량제 가격을 허용하여 비용을 절감하고 확장성을 용이하게 한다.

비정형 데이터의 단점

  • 전문 지식 필요
    정의되지 않았으므로 비정형 데이터를 준비하고 분석하려면 데이터 사이언스 전문 지식이 필요하다
  • 특수 도구
    구조화되지 않은 데이터를 제어하려면 특수한 도구가 필요하다
numbers 정형 데이터와 비정형 데이터의 차이점(Structured, Unstructured Data, What is Difference?) AI Research, Data Science
Source: Gerd Altmann

Source: IBM

Leave a Reply

Your email address will not be published. Required fields are marked *