본문 바로가기

pandas4

[Pandas] Part 4. Duplicate, SettingWithCopyWarnings, Display options, Apply fuction, MultiIndex 26. Find and Remove Duplicate Rows user_cols = ['user_id', 'age', 'gender', 'occupation', 'zip_code'] users = pd.read_table('http://bit.ly/movieusers', sep='|', header=None, names=user_cols, index_col='user_id') users.shape users.zip_code.duplicated() # 이전 열에 같은 값이 있으면 False users.zip_code.duplicated().sum() # zip_code가 같은 148개의 dup.. 2019. 10. 12.
[Pandas] Part 2. Groupby, Describe, Missing Value, String, Index 9. Multiple filter criteria to DataFrame C++ 에서 |는 비트연산자의 or을 의미하고, ||가 논리연산자의 or 을 의미하지만, 파이썬은 |가 논리연산자 or을 의미합니다. 또는 or이라고 적어도 됩니다. and는 &, and로 표시합니다. "상영시간이 200이상이거나 장르가 드라마인 영화목록" movies[(movies.duration >= 200) | (movies.genre == 'Drama')] select * from movies where movies.duration >= 200 or movies.genre == 'Drama' movies[(movies.genre == 'Crime') | (movies.genre == 'Drama') | (movies.genr.. 2019. 10. 12.
[Pandas] Part 1. DataFrame, Series, Rename, Remove, Sort, Filter 1. Data Analysis Using a pandas library in python language 2. Pandas data_table = read_table('파일명') tsv, csv. 등등 다양한 파일을 불러올 수 있음. read_table안의 추가 인수를 소개합니다. 추가 인수 내용 sep='|' |기준으로 데이터를 나눈다, seperate header=None 데이터 양식에 헤더가 없을 때, 맨 첫번째 행이 헤더가 되는 것을 막는다. name=user_cols 각 열(column)의 이름을 리스트로 구성해 대입시키면, 헤더 이름을 만들 수 있다. skiprows=None, skipfooter=None 데이터 안에 note같은 것이 들어있을 때, skip할수 있.. 2019. 10. 12.
[Tutorial] scikit-learn과 pandas사용해서 kaggle submission 파일 만들기 pandas, scikit-learn 을 이용해 캐글 과제물 submission.csv 을 제작해보겠습니다. 데이터셋은 다음과 같습니다. import pandas as pd train = pd.read_csv('http://bit.ly/kaggletrain') train.head() FIELD1 PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.25 S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38.0 1 0 PC 17.. 2019. 10. 11.
728x90