Skip to content
Home » 딥 러닝 데이터 셋 | [14] 머신러닝, 데이터 준비 방법 – 데이터 제공 사이트, 전처리 방법 답을 믿으세요

딥 러닝 데이터 셋 | [14] 머신러닝, 데이터 준비 방법 – 데이터 제공 사이트, 전처리 방법 답을 믿으세요

당신은 주제를 찾고 있습니까 “딥 러닝 데이터 셋 – [14] 머신러닝, 데이터 준비 방법 – 데이터 제공 사이트, 전처리 방법“? 다음 카테고리의 웹사이트 kk.taphoamini.com 에서 귀하의 모든 질문에 답변해 드립니다: https://kk.taphoamini.com/wiki. 바로 아래에서 답을 찾을 수 있습니다. 작성자 친절한 AI 이(가) 작성한 기사에는 조회수 15,717회 및 좋아요 380개 개의 좋아요가 있습니다.

Table of Contents

딥 러닝 데이터 셋 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 [14] 머신러닝, 데이터 준비 방법 – 데이터 제공 사이트, 전처리 방법 – 딥 러닝 데이터 셋 주제에 대한 세부정보를 참조하세요

안녕하세요, 친절한AI 미정입니다 🙂
이번시간은 머신러닝을 하기 위해 데이터를 어떻게 준비할 수 있는지 알아보겠습니다.
공개되어있는 데이터가 많이많이 올라와있는 좋은 사이트 주소가 아래 있으니 꼭 한번 들려보세요!
[국내]– AI 팩토리 : http://aifactory.space
– 공공데이터포털 : https://www.data.go.kr/datasetsearch
– AI허브 : http://www.aihub.or.kr
– 데이콘 : https://dacon.io
– 보건의료빅데이터개방시스템 : https://opendata.hira.or.kr
[국외]– 캐글 : https://www.kaggle.com/datasets
– 구글 : https://toolbox.google.com/datasetsearch
– 레딧 : https://www.reddit.com/r/datasets/
– UCI : https://archive.ics.uci.edu/ml/

딥 러닝 데이터 셋 주제에 대한 자세한 내용은 여기를 참조하세요.

머신러닝/딥러닝 데이터셋 제공 사이트

머신러닝/딥러닝 데이터셋 제공 사이트 · 8. Google Dataset Search · 7. Google AI Datasets · 6. Awesome Public Datasets · 5. OECD Health Data · 4. UCI …

+ 여기를 클릭

Source: learning-sarah.tistory.com

Date Published: 9/8/2021

View: 7136

머신러닝 데이터셋 자료 사이트 – 수알치 블로그

머신러닝 데이터셋 자료 사이트. [국내]. – AI 팩토리 : http://aifactory.space​. – 공공데이터포털 : https://www.data.go.kr/datasetsearch​.

+ 여기에 더 보기

Source: sualchi.tistory.com

Date Published: 1/24/2022

View: 7747

DataSet, DataTable이란? – 개꼬 [: 개발하는 꼬바리]

특정한 작업을 위해서 데이터를 관련성 있게 모아놓은 것을 데이터셋 이라고 … 데이터 라벨링 작업은 머신러닝이나 딥러닝 모델링 작업 전에 학습 …

+ 여기에 표시

Source: byul91oh.tistory.com

Date Published: 2/26/2021

View: 3421

머신러닝, 데이터 세트를 이해하고 해석하는 방법 – SAS

SAS를 통한 강력한 머신러닝 구축방법 및 해석방법에 대해서 설명합니다. 데이터 세트를 이해하고 해석하는 방법에 대해 살펴보실 수 있습니다.

+ 여기에 자세히 보기

Source: www.sas.com

Date Published: 7/15/2021

View: 4992

데이터셋 이야기 – 김태영의 케라스 블로그

딥러닝에서는 모델 아키텍처과 함께 데이터셋은 중요한 요소입니다. 데이터셋을 훈련셋, 검증셋, 시험셋으로 나눠야 하는 이유를 알아봤고, 어떤식으로 …

+ 여기에 표시

Source: tykimos.github.io

Date Published: 12/12/2022

View: 2134

머신러닝, 딥러닝, 데이터 분석 데이터셋 무료 사이트 모음

본 포스팅에서는 그동안 모아 왔던 무료 데이터셋 다운로드 사이트를 공유해보고자 합니다. 최근에 무료로 데이터셋을 다운로드할 수 있는 사이트가 많이 늘어나서 …

+ 여기에 표시

Source: presentlife.tistory.com

Date Published: 5/6/2021

View: 9769

머신러닝/딥러닝 데이터셋 얻을 수 있는 링크 모음 – code cleaner

머신러닝/딥러닝 데이터셋 얻을 수 있는 링크 모음. code cleaner 2019. 5. 7. 09:56. 반응형. * UC 얼바인 머신러닝 저장소 : 데이터셋.

+ 여기를 클릭

Source: cleancode-ws.tistory.com

Date Published: 12/3/2022

View: 6784

2.3 데이터 가져오기 – 텐서 플로우 블로그 (Tensor ≈ Blog)

그다음엔 머신러닝 코드와 데이터셋을 저장할 작업 디렉터리를 만듭니다. 터미널을 열고 다음 명령을 실행합니다($ 프롬프트 다음이 명령입니다).

+ 여기에 더 보기

Source: tensorflow.blog

Date Published: 8/29/2022

View: 2620

딥 러닝 데이터 셋 | [14] 머신러닝, 데이터 준비 방법

머신러닝/딥러닝 데이터셋 제공 사이트 · 8. Google Dataset Search · 7. Google AI Datasets · 6. Awesome Public Datasets · 5. OECD Health Data · 4.

+ 자세한 내용은 여기를 클릭하십시오

Source: you.dianhac.com.vn

Date Published: 9/30/2022

View: 6956

학습 분류 및 회귀 모델의 데이터 세트 만들기 | Vertex AI

분류 또는 회귀용 머신러닝 모델을 만들려면 먼저 학습시킬 데이터의 대표 컬렉션이 있어야 합니다. Google Cloud 콘솔 또는 API를 사용하여 준비된 …

+ 자세한 내용은 여기를 클릭하십시오

Source: cloud.google.com

Date Published: 3/16/2021

View: 2251

주제와 관련된 이미지 딥 러닝 데이터 셋

주제와 관련된 더 많은 사진을 참조하십시오 [14] 머신러닝, 데이터 준비 방법 – 데이터 제공 사이트, 전처리 방법. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

[14] 머신러닝, 데이터 준비 방법 - 데이터 제공 사이트, 전처리 방법
[14] 머신러닝, 데이터 준비 방법 – 데이터 제공 사이트, 전처리 방법

주제에 대한 기사 평가 딥 러닝 데이터 셋

  • Author: 친절한 AI
  • Views: 조회수 15,717회
  • Likes: 좋아요 380개
  • Date Published: 2020. 3. 24.
  • Video Url link: https://www.youtube.com/watch?v=5KSkNfX1wpU

딥러닝 데이터셋 제공 사이트

국내

1. 네이버 데이터랩 http://datalab.naver.com/

2. 공공데이터 포털 https://www.data.go.kr/

3. 서울시 데이터

– 서울연구데이터 서비스 http://data.si.re.kr/

– 서울 열린데이터광장 http://data.seoul.go.kr/

– 서울특별시 빅데이터 캠퍼스 https://bigdata.seoul.go.kr/data/selectPageListDataSet.do?r_id=P210

4. 빅데이터 분석 최신 동향 및 실습 데이터 제공 https://kbig.kr/#none

5. 금융관련 데이터

– 금융통계정보시스템 http://fisis.fss.or.kr/

– 금융위원회 http://www.fsc.go.kr/

– 한국금융연구원 http://www.kif.re.kr/

– 한국거래소 http://www.krx.co.kr/sns/sta/sta_l_002.jsp

6. 국가 통계 포털 http://www.kosis.kr/

7. 경제 통계 http://ecos.bok.or.kr/

8. 보건

– 보건 통계 http://stat.mw.go.kr/

– 국민건강보험공단 https://nhiss.nhis.or.kr/

– 심평원 http://opendata.hira.or.kr/home.do#none

9. 교육 통계 http://cesi.kedi.re.kr/

10. 의료 통계 https://www.hira.or.kr/

11. 특허 통계

– 키프리스 http://www.kipris.or.kr

– 윕스온 http://www.wipson.com

– 위즈도메인 http://www.wisdomain.com

12. 공동주택 관리 정보 시스템 http://www.k-apt.go.kr/

13. MDIS (Micro Data Integrated Service) : https://mdis.kostat.go.kr/

14. SKT BigData Hub https://www.bigdatahub.co.kr/

15. AI 오픈이노베이션 허브 https://www.aihub.or.kr/

해외

1. KDnuggets http://www.kdnuggets.com/datasets/index.html

2. Kaggle https://www.kaggle.com/

3. Data Science Central http://www.datasciencecentral.com/profiles/blogs/big-data-sets-available-for-free

4. UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/MLRepository.html

5. OECD Health Data http://titania.sourceoecd.org/vl=3705678/cl=20/nw=1/rpsv/statistic/s37_about.htm?jnlissn=99991012

6. Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets

7. Google AI Datasets https://ai.google/tools/datasets

8. Google Dataset Search https://toolbox.google.com/datasetsearch

사이트 출처는

연세대학교 산업공학과

데이터마이닝 이론 및 응용

수업 참고 자료에서 나왔습니다

DataSet, DataTable이란?

Dataset(데이터셋)

인공지능을 개발하기 위해서 필수적으로 갖춰져야 할 것은 많은 데이터입니다.

데이터가 많을수록 학습의 정확도가 높아지고 예측을 더 정확하게 할 수 있습니다.

또한 좋은 인공지능을 만들려면 인공지능에게 학습시키는 데이터의 질이 매우 중요합니다.

특정한 작업을 위해서 데이터를 관련성 있게 모아놓은 것을 데이터셋 이라고 하며 여러 형식으로 된 자료를 포함할 수 있습니다. 데이터 파일, 또는 데이터베이스라고도 부르며 컴퓨터가 처리, 분석할 수 있는 정보의 세트를 말합니다.

기계 학습에 필요한 데이터를 수집하기 위해서는 엄청난 시간과 노력이 필요합니다. 하지만 모바일이나 웹상에서 공유되고 기록되는 정보와 데이터를 가지고 분석에 사용할 수 있습니다. 또한 데이터셋을 기관과 기업에서 공개함으로써 투명성을 유지하고 이를 활용하여 더 나은 인공지능 프로그램을 개발할 수 있게 하기도 합니다.

출처 : http://computing.or.kr/14565/dataset%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B/

간단하게,

DataSet은 (DB의)DataBase

DataTable은 (DB의)Table

한마디로 DataSet안에 여러 개의 DataTable이 들어 갈 수 있다.

DataTable은 메모리상에 테이블을 표현하고,

DataSet은 메모리의 테이블들을 가지고 있으며, 일반적으로 서버로부터 테이블을 가져와 메모리상의 DataSet에 할당한 후 사용한다.

출처: https://crazykim2.tistory.com/11 [잡다한 프로그래밍]

728×90

머신러닝, 데이터 세트를 이해하고 해석하는 방법

“모델링에 뛰어들기 전에 먼저 데이터를 이해하고 탐색하라!”

데이터 과학자를 위한 일반적인 조언입니다. 데이터 세트가 정리되어 있지 않으면 모델을 구축해도 문제를 해결하는 데 도움이 되지 않습니다. 마치 쓰레기를 꺼냈다, 넣었다 하는 것과 같죠. 강력한 머신러닝 시스템을 구축하기 위해서는 예측 작업을 정의하고, 문제를 해결하기 전에 데이터 세트를 탐색하고 이해해야 합니다.

데이터 과학자는 대부분의 시간을 모델링을 위한 데이터의 탐색, 정리, 준비 과정에 씁니다. 이를 통해 정확한 모델을 구축하고, 해당 모델에 적합한 가정을 확인할 수 있습니다.

데이터를 관찰하려면 어떻게 해야 할까요?

데이터가 수백만 개의 관측값들로 구성되어 있으면 모두 확인할 수 없습니다. 그렇다고 첫 100개의 관측값이나 임의로 고른 100개의 관측값 만으로 결론을 내릴 수 없습니다.

데이터가 수천 개의 변수로 구성되어 있으면 모든 변수에 대해 통계를 작성할 수 없습니다.

데이터가 이질적인 변수로 구성됐다면 모든 변수를 동일한 방식으로 처리할 수 없습니다.

그 대신! 다양한 탐색적 데이터 분석과 시각화 기법을 이용해 데이터 세트에 대한 이해를 높일 수 있습니다. 여기에는 데이터 세트의 주요 특징을 요약하고, 데이터 세트의 대표적이거나 중요한 포인트를 찾고, 데이터 세트에서 관련 특성 (feature)을 찾는 작업이 포함됩니다. 데이터 세트를 전반적으로 이해한 후에는 모델링 과정에 사용할 관측치와 특성를 고려해야 합니다.

머신러닝, 딥러닝, 데이터 분석 데이터셋 무료 사이트 모음

본 포스팅에서는 그동안 모아 왔던 무료 데이터셋 다운로드 사이트를 공유해보고자 합니다. 최근에 무료로 데이터셋을 다운로드할 수 있는 사이트가 많이 늘어나서 추가하였습니다.

데이터셋 무료 다운로드 사이트 목록

각 사이트의 성향과 목적에 따라 서로 다른 데이터셋을 제공하고 있습니다. 사이트를 국내와 해외로 분류하고, 간략히 소개하였습니다.

국내 데이터 셋 다운로드 사이트

국내의 데이터셋 다운로드 사이트 모음입니다.

추천 사이트

1. 공공데이터 포털

국내 대부분의 공공데이터에 접근할 수 있는 공공데이터 포털입니다. 자료의 양이 방대하여, 활용도가 무궁무진합니다.

https://www.data.go.kr/

2. K-ICT 빅데이터 센터

과기부와 한국지능정보사회진흥원에서 지원하는 K-ICT빅데이터센터 공식 홈페이지입니다. 각종 공공데이터와 민간데이터를 살펴볼 수 있습니다.

https://kbig.kr/portal/;jsessionid=937409988C7AE96A54CAEB5E47CD6EDE

3. 서울 열린데이터 광장

서울 시민을 위한 공공데이터 포털입니다. 서울시와 연계하여 실생활에 밀접한 데이터를 가져와서 사용할 수 있습니다.

https://data.seoul.go.kr/index.do

4. 데이터 스토어

각종 민간 데이터들을 무료 혹은 유료로 구매할 수 있는 데이터 잡화점입니다. 공공데이터로 부족한 부분을 무료 민간 데이터로 보완할 때 유용합니다.

https://www.datastore.or.kr/

5.AI허브

AI학습용 데이터를 분류하여 제공하는 사이트입니다. 음성/자연어, 비전, 헬스케어, 자율주행 등 유망한 분야에서 유용한 데이터셋들을 다운로드할 수 있습니다.

https://aihub.or.kr/

6. KT 통신 빅데이터 플랫폼

KT에서 제공하는 데이터 플랫폼입니다. 다양한 민간 데이터와 KT에서 제공하는 데이터를 활용할 수 있습니다.

https://www.bigdata-telecom.kr/invoke/SOKBP0000/?ver=3.0

7. 문화 빅데이터 플랫폼

문화에 관련된 다양한 데이터를 제공하는 플랫폼으로, 현재 1256여 개의 데이터를 제공하고 있습니다. 무료 공공데이터와 민간 데이터중에서도 유용한 데이터가 많습니다.

https://www.bigdata-culture.kr/bigdata/user/main.do

8. 국가통계포털

통계청에서 운영하는 국가통계포털입니다. 각종 통계자료를 열람 및 다운로드할 수 있습니다.

https://kosis.kr/index/index.do

9. 데이콘 (데이터 경진대회 플랫폼)

AI해커톤 플랫폼인 데이콘입니다. 각종 경진대회가 자주 열리고, 이전에 열렸던 대회의 데이터셋 및 분석 결과가 공유됩니다.

https://dacon.io/

이외의 데이터 제공 사이트

서울 연구 데이터 서비스

https://data.si.re.kr/

서울특별시 빅데이터 캠퍼스

https://bigdata.seoul.go.kr/data/selectPageListDataSet.do?r_id=P210

금융통계정보시스템

https://fisis.fss.or.kr/fss/fsiview/indexw.html

KRF 정보 데이터 시스템

http://data.krx.co.kr/contents/MDC/MAIN/main/index.cmd

한국은행 경제통계시스템

http://ecos.bok.or.kr/

국민건강보험 자료 공유 서비스

https://nhiss.nhis.or.kr/bd/ay/bdaya001iv.do

보건의료 빅데이터 개방 시스템

https://opendata.hira.or.kr/home.do#none

건강보험심사평가원

https://www.hira.or.kr/main.do

특허정보넷 키프리스

http://www.kipris.or.kr/khome/main.jsp

WISDOMAIN (선행조사 검색 도구)

https://www.wisdomain.com/Search/Workboard

WIPS ON (특허정보검색)

https://www.wipson.com/service/mai/main.wips

공동주택관리 정보시스템

http://www.k-apt.go.kr/

마이크로데이터 통합서비스

https://mdis.kostat.go.kr/index.do

해외 데이터 셋 다운로드 사이트

해외의 데이터셋 다운로드 사이트 모음입니다.

1. 구글 데이터셋 서치

https://datasetsearch.research.google.com/

구글에서 제공하는 데이터셋 검색엔진입니다. 전 세계 사이트에서 검색 결과를 가져오기 때문에, 가장 최신의 데이터를 간편하게 검색할 수 있습니다.

2. 월드뱅크 오픈데이터

월드뱅크에서 제공하는 오픈 데이터셋입니다. 각 국가별, 대륙별 인구통계학적 자료들에 접근이 가능합니다.

https://data.worldbank.org/

4. 월드뱅크 데이터 카탈로그

공공 및 민간 데이터를 검색할 수 있습니다. 총 5063여 개의 데이터셋이 존재합니다.

https://datacatalog.worldbank.org/home

3. ProPublica Data Store

NGO뉴스 단체에서 운영하는 데이터 스토어입니다. 유무료 자료들에 접근 가능합니다. 국내보다는 해외에 관련된 자료가 많습니다.

https://www.propublica.org/datastore/

4. Data USA

미국에 관련된 여러 가지 데이터들을 다운로드하거나 간단히 시각화하여 살펴볼 수 있습니다.

https://datausa.io/

5. 구글 AI 데이터셋

구글에서 제공하는 AI데이터셋입니다. 누구나 자유롭게 이용이 가능합니다.

https://ai.google/tools/#datasets

이외의 데이터 제공 사이트

캐글

https://www.kaggle.com/

KDnuggets

https://www.kdnuggets.com/datasets/index.html

DataScience Central

Home Page

UCI Machine Learning Repository

https://archive.ics.uci.edu/ml/index.php

Awesome Public Datasets

https://github.com/awesomedata/awesome-public-datasets

이렇게 무료 데이터셋 다운로드 사이트를 정리해보았습니다. 저도 개인 취업준비를 위해 데이터 분석을 위한 데이터셋을 찾아다녔었는데요, 이렇게 정리한 자료가 다른 분이 데이터를 활용한 프로젝트를 진행할 때에도 꼭 도움이 되셧으면 좋겠습니다.

머신러닝/딥러닝 데이터셋 얻을 수 있는 링크 모음

반응형

* UC 얼바인 머신러닝 저장소 : 데이터셋

http://archive.ics.uci.edu/ml/index.php

* 캐글 데이터 셋 : 데이터 셋 및 각종 분석 모델 공유

https://www.kaggle.com/datasets

* 아마존 데이터 셋 : 별로 연습용으로 활용하기 좋지 않음/ AWS 솔루션 사용자를 위한 데이터 셋

https://registry.opendata.aws/

* 각 국가의 공공 데이터 링크 모은 사이트 : 각 국가마다 사이트 가입 필요(한국은 현재 16개)

http://dataportals.org/search

* 유럽 국가의 공개 데이터 링크 모음: 링크를 많이 타고 가야해서 불편

https://opendatamonitor.eu/frontend/web/index.php?r=dashboard%2Findex

* 유료 데이터 셋(일부 무료) : 고유 데이터 판매 가능

https://www.quandl.com/

* 위키백과: 머신러닝 주요 데이터 셋 목록

https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research

* 데이터셋 리스트 모음 링크

https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public

* 데이터 셋 서브레딧

https://www.reddit.com/r/datasets

* 카네기 멜론 대학교 통계학과 데이터 셋

http://lib.stat.cmu.edu/datasets/

* 깃허브 유명 데이터 셋

https://github.com/awesomedata/awesome-public-datasets

반응형

텐서 플로우 블로그 (Tensor ≈ Blog)

2.2 큰 그림 보기 | 목차 | 2.4 데이터 이해를 위한 탐색과 시각화

이제 직접 키보드를 두드릴 차례입니다. 노트북을 꺼내서 주피터 노트북에 있는 다음 코드 예제를 따라 해보세요. 전체 주피터 노트북은 https://github.com/rickiepark/handson-ml 6에 있습니다.

2.3.1 작업환경 만들기

먼저 파이썬이 설치되어 있어야 합니다. 여러분 컴퓨터에는 이미 설치되어 있을 것입니다. 그렇지 않다면 http://www.python.org/ 에서 내려받을 수 있습니다.7

그다음엔 머신러닝 코드와 데이터셋을 저장할 작업 디렉터리를 만듭니다. 터미널을 열고 다음 명령을 실행합니다($ 프롬프트 다음이 명령입니다).

$ export ML_PATH=”$HOME/ml” # 원하는 경로로 바꿔도 됩니다. $ mkdir -p $ML_PATH

필요한 파이썬 패키지가 많이 있습니다. 주피터, 넘파이, 판다스, 맷플롯립, 사이킷런입니다. 이미 이 패키지들을 설치했다면 2.3.2절 ‘데이터 다운로드’로 건너뛰어도 됩니다. 아직 이 패키지들이 없다면 (의존성이 있는 다른 패키지도 포함해서) 설치할 수 있는 방법은 여러 가지입니다. 시스템의 패키징 도구를 사용할 수 있고(예를 들면 우분투의 apt-get, macOS의 맥포츠MacPorts나 홈브류Homebrew), 아나콘다 같은 과학 파이썬 배포판을 설치하고 딸려오는 패키징 도구8를 사용하거나, 그냥 파이썬 바이너리 인스톨러에 (파이썬 2.7.9부터) 기본으로 포함된 자체 패키징 도구인 pip를 사용할 수도 있습니다.9 시스템에 pip가 설치되어 있는지 다음 명령으로 확인합니다.

$ pip3 –version pip 9.0.1 from […]/lib/python3.5/site-packages (python 3.5)

최신 버전의 pip가 설치되어 있는지 확인해야 합니다. 바이너리 패키지(휠wheel이라고도 합니다) 설치를 지원하기 위해 최소한 1.4 버전보다 높아야 합니다. pip 패키지를 업그레이드하려면 다음 명령을 실행합니다.10

$ pip3 install –upgrade pip Collecting pip […] Successfully installed pip-9.0.1

독립적인 환경 만들기

독립된 개발 환경(다른 프로젝트의 라이브러리 버전과 충돌하는 것을 피하기 위해 권장하는 방법입니다)을 선호한다면 다음 pip 명령으로 virtualenv를 설치하세요. $ pip3 install –user –upgrade virtualenv Collecting virtualenv […] Successfully installed virtualenv 그런 다음 독립적인 파이썬 환경을 다음과 같이 만들 수 있습니다. $ cd $ML_PATH $ virtualenv env Using base prefix ‘[…]’ New python executable in […]/ml/env/bin/python3.5 Also creating executable in […]/ml/env/bin/python Installing setuptools, pip, wheel…done. 이 환경을 활성화하려면 터미널을 열고 다음 명령을 입력합니다. $ cd $ML_PATH $ source env/bin/activate 환경이 활성화되면 pip 명령으로 설치하는 어떤 패키지든 독립된 이 환경에 설치되고 파이썬은 이 패키지만 사용하게 됩니다(시스템에 설치된 패키지를 사용하고 싶다면 virtualenv 환경을 만들 때 –system-site-packages 옵션을 사용해야 합니다). 더 자세한 정보는 virtualenv 문서를 참고하세요.11

이제 다음 pip 명령으로 필요한 패키지와 의존성으로 연결된 다른 패키지를 모두 설치합니다.

$ pip3 install –upgrade jupyter matplotlib numpy pandas scipy scikit-learn Collecting jupyter Downloading jupyter-1.0.0-py2.py3-none-any.whl Collecting matplotlib […]

설치된 것을 확인하려면 다음과 같이 패키지를 모두 임포트해보세요.

$ python3 -c “import jupyter, matplotlib, numpy, pandas, scipy, sklearn”

어떤 에러나 메시지도 출력되지 않아야 합니다. 이제 다음 명령으로 주피터를 실행합니다.

$ jupyter notebook [I 15:24 NotebookApp] Serving notebooks from local directory: […]/ml [I 15:24 NotebookApp] 0 active kernels [I 15:24 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/ [I 15:24 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).

주피터 서버가 터미널에서 실행되었고 포트 8888번에 대기 중입니다. 웹 브라우저를 사용해 http://localhost:8888/ 주소로 서버에 접근할 수 있습니다(보통 서버가 시작될 때 자동으로 브라우저를 띄워 연결해줍니다). 현재 작업공간 디렉터리가 보일 것입니다(virtualenv 설정을 그대로 따라했다면 env 디렉터리만 있습니다).

New 버튼을 클릭하고 적절한 파이썬 버전을 선택해 새로운 주피터 노트북12을 만듭니다(그림2-3).

이 과정에서 세 가지 작업이 일어납니다. 첫째, 작업공간 안에 Untitled.ipynb라는 이름의 새로운 노트북 파일을 만듭니다. 둘째, 이 노트북을 실행하기 위한 주피터 파이썬 커널을 구동시킵니다. 셋째, 새로운 브라우저 탭에서 이 노트북을 엽니다. 시작하기 전에 이 노트북의 Untitled를 클릭해서 이름을 ‘Housing’으로 바꿉니다(이렇게 하면 자동으로 파일 이름이 Housing.ipynb로 변경됩니다).

그림 2-3 주피터 작업공간

노트북은 여러 셀cell을 포함합니다. 각 셀에는 실행 코드나 포맷된 텍스트를 넣을 수 있습니다. 처음엔 노트북에 ‘In [1]:’이라고 이름이 붙은 빈 코드 셀 하나만 있습니다. 셀에p rint(“Hello world!”)라고 입력하고 play 버튼이나 Shift-Enter 키를 눌러보세요. 이 명령은 현재 셀의 내용을 파이썬 커널에 보내 실행하고 그 결과를 돌려받습니다. 결과가 셀의 아래에 표시되고 노트북의 마지막 셀에 다다랐으므로 새로운 셀이 자동으로 생성됩니다. 주피터의 Help 메뉴에서 User Interface Tour를 사용해 기본 사용법을 익혀보세요.

그림 2-4 Hello world 주피터 노트북

2.3.2 데이터 다운로드

일반적으로 여러분이 다룰 데이터는 관계형 데이터베이스(또는 다른 데이터 저장소)에 들어있고 여러 테이블, 문서, 파일로 나뉘어 있을 것입니다. 이런 데이터에 접근하려면 먼저 보안 자격과 접근 권한이 있어야 하고13 그 데이터의 구조를 잘 알고 있어야 합니다. 하지만 이 프로젝트는 간단합니다. 모든 데이터가 들어 있는 CSVcomma-separated value 파일인 housing.csv를 압축한 housing.tgz 파일을 내려받기만 하면 됩니다

웹 브라우저를 사용해 이 파일을 내려받고 tar xzf housing.tgz 명령을 실행해서 압축을 풀어 CSV 파일을 얻을 수 있지만, 간단한 함수를 만들어 사용하면 더 편합니다. 특히 데이터가 정기적으로 변경되면 최근 데이터가 필요할 때마다 스크립트를 실행하면 되니 유용합니다(또는 스케줄링하여 주기적으로 자동 실행할 수도 있습니다). 데이터를 내려받는 일을 자동화하면 여러 기기에 데이터셋을 설치해야 할 때도 편리합니다.

다음 코드가 데이터를 추출하는 함수입니다.14

import os import tarfile from six.moves import urllib DOWNLOAD_ROOT = “https://raw.githubusercontent.com/ageron/handson-ml/master/” HOUSING_PATH = os.path.join(“datasets”, “housing”) HOUSING_URL = DOWNLOAD_ROOT + “datasets/housing/housing.tgz” def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH): if not os.path.isdir(housing_path): os.makedirs(housing_path) tgz_path = os.path.join(housing_path, “housing.tgz”) urllib.request.urlretrieve(housing_url, tgz_path) housing_tgz = tarfile.open(tgz_path) housing_tgz.extractall(path=housing_path) housing_tgz.close()

fetch_housing_data ( )를 호출하면 작업공간에 datasets/housing 디렉터리를 만들고 housing.tgz 파일을 내려받고 같은 디렉터리에 압축을 풀어 housing.csv 파일을 만듭니다.

이제 판다스를 사용하여 데이터를 읽어 들이겠습니다. 데이터를 읽어 들이는 간단한 함수도 하나 만듭니다.

import pandas as pd def load_housing_data(housing_path=HOUSING_PATH): csv_path = os.path.join(housing_path, “housing.csv”) return pd.read_csv(csv_path)

이 함수는 모든 데이터를 담은 판다스의 데이터프레임 객체를 반환합니다.

2.3.3 데이터 구조 훑어보기

DataFrame의 head() 메서드를 사용해 처음 다섯 행을 확인해보겠습니다(그림 2-5).

그림 2-5 데이터셋의 처음 다섯 행

각 행은 하나의 구역을 나타냅니다. 특성은 longitude, latitude, housing_median_age, total_rooms, total_bedrooms, population, households, median_income, median_house_value, ocean_proximity 등 10개입니다(그림에는 6개만 보입니다).

info() 메서드는 데이터에 대한 간략한 설명과 특히 전체 행 수, 각 특성의 데이터 타입과 널null이 아닌 값의 개수를 확인하는 데 유용합니다(그림 2-6).

그림 2-6 housing.info() 결과

데이터셋에 20,640개의 샘플이 들어 있습니다. 머신러닝 프로젝트치고는 상당히 작은 편이지만, 처음 시작하기에는 적당한 크기입니다. total_bedrooms 특성은 20,433개만 널 값이 아닙니다. 207개의 구역은 이 특성을 가지고 있지 않다는 것을 뜻합니다. 나중에 이 문제를 적절히 처리하겠습니다.

ocean_proximity 필드만 빼고 모든 특성이 숫자형입니다. ocean_proximity 필드의 데이터 타입이 object이므로 어떤 파이썬 객체도 될 수 있지만, 데이터를 CSV 파일에서 읽어 들였기 때문에 텍스트 특성일 것입니다. 처음 다섯 행을 출력했을 때 ocean_proximity 열의 값이 반복되는 것으로 보아서15 이 특성은 아마도 범주형categorical일 것입니다. 어떤 카테고리가 있고 각 카테고리마다 얼마나 많은 구역이 있는지 value_counts() 메서드로 확인합니다.

>>> housing[“ocean_proximity”].value_counts() <1H OCEAN 9136 INLAND 6551 NEAR OCEAN 2658 NEAR BAY 2290 ISLAND 5 Name: ocean_proximity, dtype: int64 다른 필드도 살펴보겠습니다. describe() 메서드는 숫자형 특성의 요약 정보를 보여줍니다(그림 2-7). 그림 2-7 숫자형 특성의 요약 정보 count, mean, min, max 행이 의미하는 바는 쉽게 알 수 있습니다. 널 값이 제외된 것을 볼 수 있습니다(예를 들어 total_bedrooms의 count는 20,640이 아니고 20,433입니다). std 행은 값이 퍼져 있는 정도를 측정하는 표준편차를 나타냅니다.16 25%, 50%, 75% 행은 백분위수percentile를 나타냅니다. 백분위수는 전체 관측값에서 주어진 백분율이 속하는 하위 부분의 값을 나타냅니다. 예를 들어 25%의 구역은 housing_median_age가 18보다 작고, 50%는 29보다 작고, 75%는 37보다 작습니다. 이를 25번째 백분위수(또는 제1사분위수), 중간값, 75번째 백분위수(또는 제3사분위수)라고도 합니다. 데이터의 형태를 빠르게 검토하는 다른 방법은 각 숫자형 특성을 히스토그램으로 그려보는 것 입니다. 히스토그램은 주어진 값의 범위(수평축)에 속한 샘플 수(수직축)를 나타냅니다. 특성마다 따로 히스토그램을 그릴 수도 있고 전체 데이터셋에 대해 hist() 메서드를 호출하면 모든 숫자형 특성에 대한 히스토그램을 출력합니다(그림 2-8). 예를 들어 median_house_value가 약 $100,000인 구역은 800개가 조금 넘는 것을 볼 수 있습니다. %matplotlib inline # 주피터 노트북의 매직 명령 import matplotlib.pyplot as plt housing.hist(bins=50, figsize=(20,15)) plt.show() NOTE_ hist() 메서드는 맷플롯립을 사용하고 결국 화면에 그래프를 그리기 위해 사용자 컴퓨터의 그래픽 백엔드를 필요로 합니다. 그래서 그래프를 그리기 전에 맷플롯립이 사용할 백엔드를 지정해줘야 합니다. 주피터의 매직 명령 %matplotlib inline을 사용하면 편리합니다. 이 명령은 맷플롯립이 주피터 자체의 백엔드를 사용하도록 설정합니다. 그러면 그래프는 노트북 안에 그려지게 됩니다.17 주피터 노트북에서 그래프를 그릴 때 show() 메서드를 호출하는 것은 선택사항입니다. 주피터는 셀이 실행될 때 자동으로 그래프를 그려 줍니다. 그림 2-8 모든 숫자형 특성에 대한 히스토그램 이 히스토그램에서 몇 가지 사항을 확인할 수 있습니다. 먼저 중간 소득median income 특성이 US 달러로 표현되어 있지 않은 것 같습니다.18 데이터를 취합한 팀에 확인해보니 스케일을 조정하고, 상한이 15(실제로는 15.0001), 하한이 0.5(실제로는 0.4999)가 되도록 만들었다고 합니다. 머신러닝에서는 전처리된 데이터를 다루는 경우가 흔하고 이것이 문제가 되지는 않지만 데이터가 어떻게 계산된 것인지 반드시 이해하고 있어야 합니다. 중간 주택 연도housing median age와 중간 주택 가격median house value 역시 최댓값과 최솟값을 한정했습니다.19 중간 주택 가격의 경우는 타깃 속성(레이블)으로 사용되기 때문에 심각한 문제가 될 수 있습니다. 가격이 한곗값을 넘어가지 않도록 머신러닝 알고리즘이 학습될지도 모릅니다. 이것이 문제가 될지 안 될지는 클라이언트 팀(이 시스템의 출력을 사용할 팀)과 함께 검토하는 것이 좋습니다. 만약 그 팀에서 $500,000를 넘어가더라도 정확한 예측값이 필요하다고 한다면 우리가 선택할 수 있는 방법은 두 가지입니다. 한곗값 밖의 구역에 대한 정확한 레이블을 구합니다. 훈련 세트에서 이런 구역을 제거합니다($500,000가 넘는 값에 대한 예측은 평가 결과가 매우 나쁠 것이므로 테스트 세트에서도 제거합니다). 특성들의 스케일이 서로 많이 다릅니다. 특성 스케일링에 대해서는 이 장의 뒷부분에서 살펴보겠습니다. 마지막으로 많은 히스토그램의 꼬리가 두껍습니다. 가운데에서 왼쪽보다 오른쪽으로 더 멀리 뻗어 있습니다. 이런 형태는 일부 머신러닝 알고리즘에서 패턴을 찾기 어렵게 만듭니다. 나중에 이런 특성들을 좀 더 종 모양의 분포가 되도록 변형시키겠습니다. 이제 우리가 다룰 데이터를 많이 이해하게 되었습니다. CAUTION_ 데이터를 더 깊게 들여다보기 전에 테스트 세트를 따로 떼어놓아야 합니다. 그리고 테스트 세트를 절대 들여다보면 안 됩니다. 2.3.4 테스트 세트 만들기 이 단계에서 데이터 일부를 자진해서 떼어놓으라는 것이 이상하게 들릴지 모르겠습니다. 지금까지 데이터를 잠시 살펴봤을 뿐이고 어떤 알고리즘을 사용할지 정하기 전에 전체 데이터를 자세히 파악해야 하지 않을까요? 사실 맞습니다. 하지만 우리 뇌는 매우 과대적합되기 쉬운 엄청난 패턴 감지 시스템입니다. 만약 테스트 세트를 들여다본다면 테스트 세트에서 겉으로 드러난 어떤 패턴에 속아 특정 머신러닝 모델을 선택하게 될지도 모릅니다. 이 테스트 세트로 일반화 오차를 추정하면 매우 낙관적인 추정이 되며 시스템을 론칭했을 때 기대한 성능이 나오지 않을 것입니다. 이를 데이터 스누핑data snooping 편향이라고 합니다. 테스트 세트를 생성하는 일은 이론적으로 매우 간단합니다. 그냥 무작위로 어떤 샘플을 선택해서 데이터셋의 20% 정도를 떼어놓으면 됩니다. import numpy as np def split_train_test(data, test_ratio): shuffled_indices = np.random.permutation(len(data)) test_set_size = int(len(data) * test_ratio) test_indices = shuffled_indices[:test_set_size] train_indices = shuffled_indices[test_set_size:] return data.iloc[train_indices], data.iloc[test_indices] 이 함수를 다음과 같이 사용할 수 있습니다. >>> train_set, test_set = split_train_test(housing, 0.2) >>> print(len(train_set), “train +”, len(test_set), “test”) 16512 train + 4128 test

좋네요. 이것도 괜찮지만 완벽하지는 않습니다. 프로그램을 다시 실행하면 다른 테스트 세트가 생성됩니다! 여러 번 계속하면 우리는(또는 우리 머신러닝 알고리즘이) 전체 데이터셋을 보는 셈이므로 이런 상황은 피해야 합니다.

한 가지 해결책은 처음 실행에서 테스트 세트를 저장하고 다음번 실행에서 이를 불러들이는 것입니다. 또 다른 방법은 항상 같은 난수 인덱스가 생성되도록 np.random.permutation()을 호출하기 전에 난수 발생기의 초깃값을 지정하는 것입니다(예를 들면 np.random.seed(42)20).

하지만 이 두 해법 모두 다음번에 업데이트된 데이터셋을 사용하려면 문제가 됩니다. 일반적인 해결책은 샘플의 식별자를 사용하여 테스트 세트로 보낼지 말지 정하는 것입니다(샘플이 고유하고 변경 불가능한 식별자를 가지고 있다고 가정합니다). 예를 들어 각 샘플마다 식별자의 해시값을 계산하여 해시의 마지막 바이트의 값이 51(256의 20% 정도)보다 작거나 같은 샘플만 테스트 세트로 보낼 수 있습니다. 이렇게 하면 여러 번 반복 실행되면서 데이터셋이 갱신되더라도 테스트 세트가 동일하게 유지됩니다. 새로운 테스트 세트는 새 샘플의 20%를 갖게 되지만 이전에 훈련 세트에 있던 샘플은 포함시키지 않을 것입니다. 다음은 이를 구현한 코드입니다.†

from zlib import crc32 def test_set_check(identifier, test_ratio): return crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32 def split_train_test_by_id(data, test_ratio, id_column): ids = data[id_column] in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio)) return data.loc[~in_test_set], data.loc[in_test_set] 안타깝게도 주택 데이터셋에는 식별자 컬럼이 없습니다. 대신 행의 인덱스를 ID로 사용하면 간단히 해결됩니다. housing_with_id = housing.reset_index() # ‘index’ 열이 추가된 데이터프레임이 반환됩니다. train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "index") 행의 인덱스를 고유 식별자로 사용할 때 새 데이터는 데이터셋의 끝에 추가되어야 하고 어떤 행도 삭제되지 않아야 합니다. 이것이 불가능할 땐 고유 식별자를 만드는 데 안전한 특성을 사용해야 합니다. 예를 들어 구역의 위도와 경도는 몇백 년 후까지 안정적이라고 보장할 수 있으므로 두 값을 연결하여 다음과 같이 ID를 만들 수 있습니다.21 housing_with_id["id"] = housing["longitude"] * 1000 + housing["latitude"] train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "id") 사이킷런은 데이터셋을 여러 서브셋으로 나누는 다양한 방법을 제공합니다. 가장 간단한 함수는 train_test_split으로, 앞서 우리가 만든 split_train_test와 아주 비슷하지만 두 가지 특징이 더 있습니다. 첫째 앞서 설명한 난수 초깃값을 지정할 수 있는 random_state 매개변수가 있고, 둘째 행의 개수가 같은 여러 개의 데이터셋을 넘겨서 같은 인덱스를 기반으로 나눌 수 있습니다(이는 예를 들어 데이터프레임이 레이블에 따라 여러 개로 나뉘어 있을 때 매우 유용합니다).22 from sklearn.model_selection import train_test_split train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42) 지금까지는 순수한 무작위 샘플링 방식을 보았습니다. 데이터셋이 충분히 크다면(특히 특성 수에 비해) 일반적으로 괜찮지만, 그렇지 않다면 샘플링 편향이 생길 가능성이 큽니다. 설문조사 기관에서 1,000명에게 질문 몇 개를 하려 할 때 그냥 전화번호부에서 1,000명을 무작위로 뽑는 것이 아닙니다. 전체 인구를 대표할 수 있는 1,000명을 선택하기 위해 노력합니다. 미국 인구의 51.3%가 여성이고 48.7%가 남성이라면, 잘 구성된 설문조사는 샘플에서도 이 비율을 유지해야 합니다. 즉, 여성은 513명, 남성은 487명이어야 합니다. 이를 계층적 샘플링stratified sampling이라고 합니다. 전체 모수는 계층strata이라는 동질의 그룹으로 나뉘고, 테스트 세트가 전체 모수를 대표하도록 각 계층에서 올바른 수의 샘플을 추출합니다. 기본 무작위 샘플링을 사용하면 49%보다 적거나 54%보다 많은 여성이 테스트 세트에 들어갈 확률이 약 12%입니다.23 어느 방법을 사용하든 설문조사 결과를 크게 편향시키게 됩니다. 전문가가 중간 소득이 중간 주택 가격을 예측하는 데 매우 중요하다고 이야기해주었다고 가정합시다. 이 경우 테스트 세트가 전체 데이터셋에 있는 여러 소득 카테고리를 잘 대표해야 합니다. 중간 소득이 연속적인 숫자형 특성이므로 소득에 대한 카테고리 특성을 만들어야 합니다. 중간 소득의 히스토그램을 조금 더 자세히 살펴보겠습니다([그림 2-8] 참조). 중간 소득 대부분은 $20,000~$50,000 사이에 모여 있지만 일부는 $60,000를 넘기도 합니다. 계층별로 데이터셋에 충분한 샘플 수가 있어야 합니다. 그렇지 않으면 계층의 중요도를 추정하는 데 편향이 발생할 것입니다. 이 말은 너무 많은 계층으로 나누면 안 된다는 뜻이고 각 계층이 충분히 커야 합니다. 다음 코드는 중간 소득을 1.5로 나누고(소득의 카테고리 수를 제한하기 위해), ceil 함수를 사용하여 올림해서 소득 카테고리 특성을 만들고(이산적인 카테고리를 만들기 위해), 5보다 큰 카테고리는 5로 합칩니다. housing["income_cat"] = np.ceil(housing["median_income"] / 1.5) housing["income_cat"].where(housing["income_cat"] < 5, 5.0, inplace=True) [그림 2-9]는 이 소득 카테고리의 히스토그램입니다. 그림 2-9 소득 카테고리의 히스토그램 이제 소득 카테고리를 기반으로 계층 샘플링을 할 준비가 되었습니다. 사이킷런의 StratifiedShuffleSplit를 사용할 수 있습니다.24 from sklearn.model_selection import StratifiedShuffleSplit split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42) for train_index, test_index in split.split(housing, housing["income_cat"]): strat_train_set = housing.loc[train_index] strat_test_set = housing.loc[test_index] 의도대로 되었는지 살펴보겠습니다. 전체 주택 데이터셋에서 소득 카테고리의 비율을 먼저 살펴보겠습니다. >>> housing[“income_cat”].value_counts() / len(housing) 3.0 0.350581 2.0 0.318847 4.0 0.176308 5.0 0.114438 1.0 0.039826 Name: income_cat, dtype: float64

비슷한 코드로 테스트 세트에 있는 소득 카테고리의 비율을 측정합니다. [그림 2-10]은 전체 데이터셋과 계층 샘플링으로 만든 테스트 세트에서 소득 카테고리 비율을 비교한 것입니다. 그림에서 보듯이 계층 샘플링을 사용해 만든 테스트 세트가 전체 데이터셋에 있는 소득 카테고리의 비율과 거의 같습니다. 반면 일반 무작위 샘플링으로 만든 테스트 세트는 비율이 많이 달라졌습니다.

그림 2-10 계층 샘플링과 순수한 무작위 샘플링의 샘플링 편향 비교

이제 income_cat 특성을 삭제해서 데이터를 원래 상태로 되돌리겠습니다.25

for set_ in (strat_train_set, strat_test_set): set_.drop(“income_cat”, axis=1, inplace=True)

테스트 세트 생성에 대해 자세히 설명한 데는 그럴 만한 이유가 있습니다. 종종 등한시되기도 하지만 머신러닝 프로젝트에서 아주 중요한 부분이기 때문입니다. 게다가 이런 아이디어들은 나중에 교차 검증에 대해 이야기할 때 도움이 됩니다. 이제 데이터를 탐색하는 다음 단계로 넘어갑시다.

6 옮긴이_ 이 주소는 옮긴이의 저장소입니다. 저자의 저장소는 https://github.com/ageron/handson-ml 입니다.

7 파이썬 3의 최신 버전을 추천합니다. 파이썬 2.7+도 아직 괜찮지만 더 이상 업데이트되지 않습니다. 옮긴이_ 파이썬 2.7+는 2020년까지만 유지 관리됩니다.

8 옮긴이_ 아나콘다는 운영체제별로 사전에 컴파일된 많은 과학 패키지를 제공하며, 시스템의 기본 파이썬을 변경하지 않고 사용자 권한으로 다양한 버전의 파이썬을 설치할 수 있는 등 장점이 많아 대부분의 경우 권장하는 방법입니다. 아나콘다의 패키징 도구는 conda입니다. 윈도우에서 아나콘다를 설치하는 과정은 옮긴이의 블로그를 참고하세요(https://goo.gl/QmSUwF).

9 여기서는 리눅스나 macOS 시스템의 배시 셸(bash shell )에서 pip 명령을 사용한 설치 과정을 제시합니다. 윈도우에서는 아나콘다를 권장합니다.

10 이 명령을 실행하려면 시스템 어드민 권한이 필요할지 모릅니다. 이런 경우에는 앞에s udo 명령을 붙여서 시도해보세요.

11 옮긴이_ virtualenv 문서는 https://virtualenv.pypa.io/ 주소에서 확인할 수 있습니다.

12 주피터는 여러 버전의 파이썬을 지원하며 R이나 옥타브(Octave) 같은 다른 언어도 사용할 수 있습니다. 옮긴이_ 이 외에도 과학 계산용 언어 줄리아(Julia )와 대화형 C++(https://goo.gl/b8aJyR) 등 많은 언어를 지원합니다. 전체 주피터 커널 목록은 https://goo.gl/tjKunR 주소를 확인하세요.

13 또한 개인 정보가 담긴 필드가 안전하지 않은 저장소로 복사되지 않는 등의 법적 제약도 검토해야 합니다.

14 실제 프로젝트에서는 이 코드를 파이썬 파일에 저장하지만 여기서는 그냥 주피터 노트북에 작성합니다.

15 옮긴이_ [그림 2-5]에는 모든 열이 나타나 있지 않고 깃허브 주피터 노트북에서 전체 열을 확인할 수 있습니다. 처음 다섯 행의 ocean_proximity는 모두 ‘NEAR BAY’입니다.

16 옮긴이_ 표준편차는 일반적으로 (시그마)로 표기하고, 평균에서부터 떨어진 거리를 제곱하여 평균한 분산의 제곱근입니다. 어떤 특성이 정규분포(가우시안 분포)를 따르는 경우 약 68%의 값은 1 안에, 95%는 2 안에, 99.7%는 3 안에 있습니다.

17 옮긴이_ IPython kernel 4.4.0부터는 %matplotlib inline 매직 명령을 사용하지 않더라도 맷플롯립 1.5 이상에서는 자동으로 주피터 자체 백엔드로 설정됩니다.

18 옮긴이_ [그림 2-8]의 median_income 히스토그램을 보세요.

19 옮긴이_ 중간 주택 연도(housing_median_age)와 중간 주택 가격(median_housing_value) 히스토그램은 오른쪽에서 그래프가 심하게 높아지면서 히스토그램이 끝나는 것으로 보아 마지막 값으로 한정되었음을 짐작할 수 있습니다.

20 사람들은 난수 초깃값으로 42를 자주 사용합니다. 이 숫자는 ‘삶, 우주, 그리고 모든 것에 대한 궁극적인 질문의 해답’인 것 외에는 특별한 의미는 없습니다. 옮긴이_ 이 숫자는 더글러스 애덤스(Douglas Adams)의 소설 『은하수를 여행하는 히치하이커를 위한 안내서』에서 슈퍼컴퓨터인 깊은 생각(Deep Thought)이 이 질문에 대해 750만 년 동안 계산하여 내놓은 답입니다.

21 위치 정보는 사실 정밀도가 낮아 여러 구역의 ID가 동일해지므로 같은 테스트 세트 혹은 훈련 세트에 들어가게 됩니다. 이는 원치 않은 샘플링 편향을 만듭니다.

22 옮긴이_ train_test_split() 함수는 파이썬 리스트, 넘파이 배열, 판다스 데이터프레임과 판다스 시리즈(Series) 객체 등을 입력으로 받을 수 있습니다.

23 옮긴이_ 샘플 수가 이고 모수에서의 비율이 일 때 이고 인 이항 분포는 평균이 고 표준편차가 인 정규분포로 근사할 수 있습니다. 따라서 전체 인구 중 51.3%인 여성이 샘플에서 차지할 비율의 분포는 평균이 이고 표준편차가 입니다. 평균이 513이고 표준편차가 15.8인 정규분포에서 490 이하와 540 이상인 부분의 면적은 약 11.65%입니다.

24 옮긴이_ StratifiedShuffleSplit는 StratifiedKFold의 계층 샘플링과 ShuffleSplit의 랜덤 샘플링을 합친 것으로 test_size와 train_size 매개변수의 합을 1 이하로 지정할 수도 있습니다.

25 옮긴이_ 판다스 데이터프레임의 drop 메서드는 행 또는 열을 삭제합니다. axis 매개변수의 기본값이 0일 때는 행을 삭제하고 1일 때는 열을 삭제합니다. 기본값이 False인 inplace 매개변수를 True로 설정하면 호출된 데이터프레임 자체를 수정하고 아무런 값도 반환하지 않습니다.

† 옮긴이_ crc32() 함수의 결과에 비트 연산을 하는 이유는 파이썬 2와 호환성을 유지하기 위해서 입니다.

2.2 큰 그림 보기 | 목차 | 2.4 데이터 이해를 위한 탐색과 시각화

이 글은 한빛미디어에서 출간한 “핸즈온 머신러닝“의 1장과 2장입니다. 이 책의 저작권은 한빛미디어(주)에 있으므로 무단 복제 및 무단 전제를 금합니다.

딥 러닝 데이터 셋 | [14] 머신러닝, 데이터 준비 방법 – 데이터 제공 사이트, 전처리 방법 405 개의 새로운 답변이 업데이트되었습니다.

We are using cookies to give you the best experience on our website.

You can find out more about which cookies we are using or switch them off in settings.

학습 분류 및 회귀 모델의 데이터 세트 만들기

내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

이 페이지에서는 표 형식 데이터에서 Vertex AI 데이터 세트를 만들어 학습 분류 및 회귀 모델을 시작할 수 있는 방법을 보여줍니다. Google Cloud 콘솔 또는 Vertex AI API를 사용하여 데이터 세트를 만들 수 있습니다.

시작하기 전에

테이블 형식 데이터에서 Vertex AI 데이터 세트를 만들려면 먼저 데이터를 준비해야 합니다. 자세한 내용은 다음을 참고하세요.

빈 데이터 세트를 만들고 준비된 데이터 연결

분류 또는 회귀용 머신러닝 모델을 만들려면 먼저 학습시킬 데이터의 대표 컬렉션이 있어야 합니다. Google Cloud 콘솔 또는 API를 사용하여 준비된 데이터를 데이터 세트에 연결합니다. 데이터를 연결한 후 적절히 수정하여 모델 학습을 시작할 수 있습니다.

다음 단계

키워드에 대한 정보 딥 러닝 데이터 셋

다음은 Bing에서 딥 러닝 데이터 셋 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 [14] 머신러닝, 데이터 준비 방법 – 데이터 제공 사이트, 전처리 방법

  • 머신러닝
  • 데이터
  • 준비하기
  • 친절한AI
  • 인공지능
  • Artificial Intelligence
  • Machine Learning
  • Data
  • Preprocessing
  • 데이터 전처리
[14] #머신러닝, #데이터 #준비 #방법 #- #데이터 #제공 #사이트, #전처리 #방법


YouTube에서 딥 러닝 데이터 셋 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 [14] 머신러닝, 데이터 준비 방법 – 데이터 제공 사이트, 전처리 방법 | 딥 러닝 데이터 셋, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

See also  전반 확산 조명 | [정보충전] “조명 하나 바꿨을 뿐인데”…빛 인테리어의 모든 것! / Kbs뉴스(News) 최근 답변 77개

Leave a Reply

Your email address will not be published. Required fields are marked *