본문 바로가기

ML, DL/Data Analysis6

R 데이터 타입, 그래픽, 데이터 마트, 결측값, 이상값 1. R과 데이터마트 01 R 기초 데이터를 메모리(RAM)에 올려놓고 사용하므로, 속도가 빠르다. 1) 데이터 구조 Vector(1차원), Matrix(2차원), Array(고차원), Data frame(2차원, 다른 타입가능), List 2) 벡터(Vector) 하나 이상의 스칼라 원소가 있는 집합. 동일 자료형을 가진다. c(), seq(), rep() 정수와 문자열을 섞으면, 모두 문자열로 변환된다. 범주형(Categroical) : 정성적 → 명목형, 순서형 수치형(Numerical) : 정랑적 → 이산형, 연속형 R에는 4가지 벡터 타입이 있다. numeric : 실수 integer : 정수 character : 문자열 factor : 범주형 변수(명목형 변수, 순서형 변수) 대표적인 iris.. 2020. 8. 25.
[Pandas] Part 4. Duplicate, SettingWithCopyWarnings, Display options, Apply fuction, MultiIndex 26. Find and Remove Duplicate Rows user_cols = ['user_id', 'age', 'gender', 'occupation', 'zip_code'] users = pd.read_table('http://bit.ly/movieusers', sep='|', header=None, names=user_cols, index_col='user_id') users.shape users.zip_code.duplicated() # 이전 열에 같은 값이 있으면 False users.zip_code.duplicated().sum() # zip_code가 같은 148개의 dup.. 2019. 10. 12.
[Pandas] Part 3. Dataframe smaller and faster, Dummy, Dates and times, 21. Make Dataframe smaller, faster object 타입 대신, category 타입 사용은 메모리 usage를 효율적으로 활용할 수 있게할 뿐만 아니라 시간도 빨라질 수 있습니다. string(object)을 탐색하는 것보다, integer(category)탐색이 시간이 빠르기 때문입니다. drinks.info() # + 의미: object가 무엇을 참조하느냐에 따라 9.2KB를 초과할 수 있다. >> RangeIndex: 193 entries, 0 to 192 Data columns (total 6 columns): country 193 non-null object beer_servings 193 non-null int64 spirit_servings 193 non-null i.. 2019. 10. 12.
[Pandas] Part 2. Groupby, Describe, Missing Value, String, Index 9. Multiple filter criteria to DataFrame C++ 에서 |는 비트연산자의 or을 의미하고, ||가 논리연산자의 or 을 의미하지만, 파이썬은 |가 논리연산자 or을 의미합니다. 또는 or이라고 적어도 됩니다. and는 &, and로 표시합니다. "상영시간이 200이상이거나 장르가 드라마인 영화목록" movies[(movies.duration >= 200) | (movies.genre == 'Drama')] select * from movies where movies.duration >= 200 or movies.genre == 'Drama' movies[(movies.genre == 'Crime') | (movies.genre == 'Drama') | (movies.genr.. 2019. 10. 12.
[Pandas] Part 1. DataFrame, Series, Rename, Remove, Sort, Filter 1. Data Analysis Using a pandas library in python language 2. Pandas data_table = read_table('파일명') tsv, csv. 등등 다양한 파일을 불러올 수 있음. read_table안의 추가 인수를 소개합니다. 추가 인수 내용 sep='|' |기준으로 데이터를 나눈다, seperate header=None 데이터 양식에 헤더가 없을 때, 맨 첫번째 행이 헤더가 되는 것을 막는다. name=user_cols 각 열(column)의 이름을 리스트로 구성해 대입시키면, 헤더 이름을 만들 수 있다. skiprows=None, skipfooter=None 데이터 안에 note같은 것이 들어있을 때, skip할수 있.. 2019. 10. 12.
[Tutorial] scikit-learn과 pandas사용해서 kaggle submission 파일 만들기 pandas, scikit-learn 을 이용해 캐글 과제물 submission.csv 을 제작해보겠습니다. 데이터셋은 다음과 같습니다. import pandas as pd train = pd.read_csv('http://bit.ly/kaggletrain') train.head() FIELD1 PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.25 S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38.0 1 0 PC 17.. 2019. 10. 11.
728x90