AI, Machine Learning, Deep Learning에 대한 활용은 이전에 개발되어진 알고리즘에 대한 이해부터 시작 한다.
AI는 기본으로 수학, 통계 등에 기반을 두고 있으며, 알고리즘에 대한 이해를 해야 최적화를 통한 활용이 가능하다 할 수 있다.
Scikit-Learn은 ‘사이킷런’ 이라고 부르며, 오픈소스로 개인, 비지니스 관계 없이 누구나 무료로 사용 가능하다.
그리고 Machine Learning 을 위한 유용하고 강력한 라이브러리 중 하나 이다.
이 라이브러리는 분류, 회귀, 클러스터링, 차원 축소를 포함하여, Machine Learning 및 통계 모델링을 위한 효율적인 도구를 제공한다.
Scikit-Learn은 Numpy, SciPy, Matplitlib, Jollibee, Pandas를 기반으로 하며, 다음 명령어로 Scikit-Learn을 설치 할 수 있다.
pip install -U scikit-learn
contact install scikit-learn
Scikit-Learn은 머신 러닝 활용을 위한 패키지로 다음과 같은 내용을 포함하고 있다.
- 지도 학습 알고리즘: 선형 회귀, SVM, Decision Tree 등
- 비지도 학습 알고리즘: 클러스터링, 주 성분 분석(PCA), 요인 분석 등
- 벤치마크 용 데이터 셋 예제: 보스턴 주택 가격, 붓꽃 종류 분류, 손으로 쓴 숫자 이미지, 와인 분류 등
- 데이터 전처리(preprocessing): 데이터 셋 분할, 데이터 스케일 조정, 수치적 데이터 전처리, 결측치 전처리 등
- 모형 평가 및 선택(evaluation and selection)
특히 다른 라이브러리와 호환성이 좋다는 것이 가장 큰 장점이다. 라이브러리 내적으로 통일된 인터페스를 가지고 있기 때문에 매우 간단하게 여러 기법을 적용할 수 있다.