반응형 파이썬39 [파이썬 1강] 컴퓨터의 이해 1 학습개요우리의 사회는 업무에 필요한 데이터를 신속하게 찾아 요약하고 분석하여 가치있는 정보로 재생산할 수 있는 능력이 더욱 요구되는 사회로 변화함에 따라 컴퓨터에 대한 이해가 점차 중요해지고 있다. 대량의 데이터를 처리를 위한 목적으로 개발된 컴퓨터를 보다 유용하게 활용하기 위해서는 컴퓨터에서 데이터와 정보가 어떻게 표현ㆍ저장ㆍ처리되고 이 과정에서 어떠한 개념들이 적용되는지 이해할 필요가 있다. 이번 강의에서는 데이터와 정보의 개념과 디지털과 아날로그의 개념, 디지털 데이터의 표현 방식, 그리고 프로그램과 알고리즘에 대해서 살펴본다. 학습목표데이터와 정보의 차이점을 설명할 수 있다.데이터의 표현 방식에 대해 설명할 수 있다.프로그램과 알고리즘의 차이점에 대해 설명할 수 있다. 주요용어데이터: 어떤 현상이.. 파이썬 2025. 3. 8. 머신러닝 다중클래스 분류 모델 예측 평가 및 성능 시각화 다중클래스 분류기 예측 평가 및 분류기 성능 시각화 1. 두 개 이상의 클래스 : 평가지표 교차검증 In [ ]: # 라이브러리 임포트 from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification In [ ]: # 특성 행렬과 타깃 벡터를 만든다 features, target = make_classification(n_samples=10000, n_features=3, n_informative=3, n_redundant=0, n_classes=3, # 클래스가 3인 다중분류 random_stat.. 파이썬/머신러닝 2022. 11. 24. 머신러닝 이진 분류모델의 예측 평가와 임곗값 평가 훈련된 분류 모델의 품질 평가 1. 이진 분류기의 예측 평가하기 : Confusion Metrix을 통한 교차검증 (이진분류 : 0,1 로 분류하는 로지스틱 회귀) TP : 진짜 양성 개수, 양성 클래스중에서 올바르게 예측한 샘플 개수 TN : 진짜 음성 개수, 음성 클래스 중에서 올바르게 예측한 샘플 개수 FP : 거짓 양성 개수, 1종 에러라고 부르고, 양성 클래스로 예측한 것 중에서 실제 음성 클래스인 샘플 개수 FN : 거짓 음성 개수, 2종 에러라고 부르고, 음성 클래스로 예측한 것 중에서 실제 양성 클래스인 샘플 개수 사이킷런 cross_val_score 교차검증을 수행할 때 scoring 매개변수에 성능 지표 중 하나를 선택할 수 있다. 정확도, 정밀도, 재현율, F₁이 있다. 이 중 정확도.. 파이썬/머신러닝 2022. 11. 24. 머신러닝 기본 회귀 모델과 기본 분류 모델의 평가방법 - score(), predict() 1. 기본 회귀모델 평가 - score() : R², predict()¶ 다른 모델과 비교하기 위한 간단한 기본 회귀 모델¶ 사이킷런 DummyRegressor : 기본 모델로 사용할 더미 모델 생성¶ DummyRegrssor 클래스는 실제 모델과 비교하기 위해 사용할 수 있는 매우 간단한 모델을 만든다. 기존 제품이나 시스템의 단순한 예측 방식을 흉내 내는 데 종종 사용하게 된다. 예를 들면 모든 새로운 사용자는 특성에 상관없이 첫 달에 100만원을 사용할 것이라고 가정하도록 애초부터 시스템에 하드코딩되어 있을지 모른다. 이런 가정을 기본 모델로 삼으면 머신러닝 방식을 사용했을 때 장점을 명확히 확인할 수 있다. In [8]: # 라이브러리 임포트 from sklearn.datasets import l.. 파이썬/머신러닝 2022. 11. 23. 판다스 pandas 텍스트 전처리하기 1.텍스트 정제하기¶ 비정형 텍스트 데이터에 기본적인 정제 작업 In [47]: # strip, replace, split # 텍스트 생성 text_data = [" Interoobang, By Aishwarya Henriette ", "Parking And Going. By Karl Gautier", " Today Is The night. By Jarek Prakash "] In [48]: #@title 공백 문자 제거 strip_whitespace = [string.strip() for string in text_data] strip_whitespace Out[48]: ['Interoobang, By Aishwarya Henriette', 'Parking And Going. By Karl Gautie.. 파이썬/Pandas 2022. 11. 23. 딥러닝 프로세스 간략하게 보기, GPU / CUDA 딥러닝 프로세스 신경망 구축을 지원하는 파이토치 핵심 모듈은 torch.nn에 있으며 공통적인 신경망가 아키텍처적인 구성요소를 제공한다. 완전 연결계층이나 컨볼루션층, 활성화함수, 손실함수가 모두 포함된다. 훈련 전 모델을 만들고 초기화 하는데 필요하다. 모델 훈련을 위해서 몇가지 부가적인 사항이 더 필요하다. 훈련 데이터를 얻을 수 있는 곳, 모델을 훈련 데이터에 맞춰주는 옵티마이저 그리고 모델과 데이터로 모델 훈련을 위해 필요한 계산을 수행할 하드웨어(CPU, GPU : CUDA) 등이 있어야 한다. 훈련 데이터가 모델에 이르기까지 많은 데이터 처리가 필요함을 알 수 있다. 1. 데이터를 가져오는 작업 (데이터소스 - 샘플 텐서 - 다중 프로세스 데이터 로딩 - 배치텐서) 가장 먼저 저장소를 비롯한 .. 파이썬/딥러닝 2022. 11. 23. 딥러닝 신경망의 기본 구성 요소 1. 인공뉴런과 생물학적 뉴런의 표현법 차이¶ 개념적으로 바뀌는 건 없지만, 로지스틱 회귀 모델을 인공 뉴런으로 사용할 때는 세타 값들을 조금 다르게 표현한다. 입력 변수와 곱해지는 세타 값들을 가중치, 영어로는 weight라고 부르고요. 변수로는 weight의 가장 앞 알파벳 $w$를 사용해서 나타냅니다. 그리고 항상 1과 곱해지는 상수 세타는 편향, 영어로는 bias라고 부르고, 변수로는 bias의 가장 앞 알파벳 $b$를 사용해서 나타낸다. 2. 인공 신경망 : 수많은 인공 뉴런이 엮여 있는 모델¶ 인공 신경망은 수많은 인공 뉴런을 엮어서 예측하는 알고리즘이다. 동그라미 하나는 인공 뉴런 하나를 나타내고, 선 하나는 각 가중치를 의미합니다. 그리고 편향은 뉴런 안에 있다. 가중치(파라미터) : 입력.. 파이썬/딥러닝 2022. 11. 22. 파이썬 함수에서 변수의 범위 : 지역 변수, 글로벌 변수 변수의 범위¶ 함수 내에서 사용되는 지역변수(Local Variable)는 호출된 함수 내에서만 유효하다. 호출된 함수의 실행이 종료되면 그 변수는 삭제되어 사용할 수 없게 된다. 함수의 매개변수도 일종의 지역변수이다. 지역변수와는 달리 전역변수(Global Variable)는 프로그램의 메인 루틴에서 사용되는 변수로서 하위의 모든 함수에서 유효하다. 하나의 변수는 사용 가능한 범위를 가지고 있는데 이를 변수의 범위(Scope of Variable)라고 한다. 사용자 함수를 정의해서 사용하다 보면 정의된 함수에서 사용되는 변수(지역변수)와 메인루틴에서 사용하는 변수(전역변수)간에 충돌이 발생할 수 있다. 1. 지역변수 : 함수 내에서 사용¶ ① 지역 변수 사용 시의 오류¶ In [ ]: def func(.. 파이썬/파이썬기초 2022. 11. 22. 모델 평가란? 로지스틱회귀에서 KFold 교차검증 사용해보기 모델평가란 무엇일까?¶ 학습 알고리즘으로 만든 모델의 성능을 평가하기 위한 전략이 필요하다. 모델 예측은 성능이 높아야 유용하다. 하나의 단순한 모델을 만드는 것은 쉬운작업일지도 모르지만, 정말 품질이 좋은 모델을 만드는 것은 어려운 작업이다. 따라서 다양한 알고리즘 중 적합한 것을 택하기 위해서 모델 평가는 필수이다. 모델을 훈련한 데이터로 모델이 얼마나 잘 수행되는지 평가한다면 원하는 목표를 달성하지 못한다. 목표는 훈련 데이터에서 잘 동작하는 모델이 아니라 이전에 본 적 없는 데이터(예를 들어, 새로운 고객, 새로운 범죄, 새로운 이미지)에서 잘 동작하는 모델이다. → 평가 방법은 이전에 본 적 없는 데이터에서 모델이 얼마나 좋은 예측을 만드는지 알 수 있어야 한다. 훈련세트와 테스트세트¶ 검증(또.. 파이썬/머신러닝 2022. 11. 21. 딥러닝이란 무엇일까? *머신러닝과 딥러닝의 차이점 딥러닝이란 무엇일까? 앞서 인공지능, 머신러닝, 딥러닝을 수학적 집합의 개념으로 본다. 인공지능 안에 머신러닝이 있고 그리고 머신러닝 안에는 딥러닝이 있다. 인공지능은 인간의 지능을 모방한 기계, 혹은 그에 준하는 컴퓨터 기술이다. 머신러닝은 입력 데이터를 이용해 알지 못하는 변수를 반복적으로 학습해 나가면서 예측하는 알고리즘이다. 딥러닝은 인공 신경망을 사용한 머신러닝 알고리즘이다. 단순히 이렇게 말을하면 인공 신경망을 사용한 머신러닝이 딥러닝이라고 밖에 이해가 가지 않는다. 왜냐하면 머신러닝에서도 신경망을 이용할 수 있기 때문이다. 머신러닝으로 학습을 할 수 있는데 딥러닝을 왜 해야하는가 납득이 되지 않는다. 무엇이 다른가에 대하여 알면, 딥러닝 프로세스가 더 이해가 잘 가게된다. 해당 동영상에서 무.. 파이썬/딥러닝 2022. 11. 18. 파이썬에서 함수란? 함수 사용법 함수는 무엇일까¶ 파이썬과 같은 컴퓨터 언어에서 함수는 수학에서 쓰이는 함수와 비슷하다. 역시 영어로 function이라 불리는데 함수가 가지는 기능 그리고 역할이라는 뜻도 내포하고있다. ✅그러면 함수는 무엇일까? 코드를 작성하고 결과를 출력하고자 할때 쓰이는 print()가 있다, 그리고 범위글 구하는 range()가 있다. 리스트 자료형으로 변환해주는 list() 그리고 키보드로부터 입력되는 데이터를 변수로 저장해주는 input() 등이 함수로 기능을하고 있다. 이러한 함수들은 파이썬 자체에서 기본적으로 제공하는 내장함수이다. 1. 함수 정의와 호출하는 방법¶ 파이썬에서 기본으로 제공하는 함수 외에도 프로그래머가 직접 함수를 정의하고 호출해서 사용할 수도 있다. [함수 정의] def 함수명(): 문장.. 파이썬/파이썬기초 2022. 11. 18. 넘파이numpy 와 서킷런sklearn을 활용한 데이터 이상치 확인 및 해결 1. 이상치 감지하기 아주 예외적인 샘플을 구별하고 싶을때 사용한다. 일반적인 방법은 데이터가 정규분포를 따른다고 가정하고 이런 가정을 기반으로 하여 데이터를 둘러싼 타원이 그린다. 타원 안의 샘플을 정상치(레이블1)로 분류하고, 타원 밖에 샘플은 이상치(레이블-1)로 분류한다. In [11]: # 라이브러리 임포트 import numpy as np import pandas as pd # 이상치 감지 from sklearn.covariance import EllipticEnvelope #분류용 가상 데이터 생성 from sklearn.datasets import make_blobs In [12]: #@title **모의 데이터 생성 : make_blobs** features1, _ = make_blobs.. 파이썬/머신러닝 2022. 11. 17. 이전 1 2 3 4 다음