R 데이터 타입, 그래픽, 데이터 마트, 결측값, 이상값
1. R과 데이터마트 01 R 기초 데이터를 메모리(RAM)에 올려놓고 사용하므로, 속도가 빠르다. 1) 데이터 구조 Vector(1차원), Matrix(2차원), Array(고차원), Data frame(2차원, 다른 타입가능), List 2) 벡터(Vector) 하나 이상의 스칼라 원소가 있는 집합. 동일 자료형을 가진다. c(), seq(), rep() 정수와 문자열을 섞으면, 모두 문자열로 변환된다. 범주형(Categroical) : 정성적 → 명목형, 순서형 수치형(Numerical) : 정랑적 → 이산형, 연속형 R에는 4가지 벡터 타입이 있다. numeric : 실수 integer : 정수 character : 문자열 factor : 범주형 변수(명목형 변수, 순서형 변수) 대표적인 iris..
2020. 8. 25.
[Pandas] Part 4. Duplicate, SettingWithCopyWarnings, Display options, Apply fuction, MultiIndex
26. Find and Remove Duplicate Rows user_cols = ['user_id', 'age', 'gender', 'occupation', 'zip_code'] users = pd.read_table('http://bit.ly/movieusers', sep='|', header=None, names=user_cols, index_col='user_id') users.shape users.zip_code.duplicated() # 이전 열에 같은 값이 있으면 False users.zip_code.duplicated().sum() # zip_code가 같은 148개의 dup..
2019. 10. 12.
[Pandas] Part 1. DataFrame, Series, Rename, Remove, Sort, Filter
1. Data Analysis Using a pandas library in python language 2. Pandas data_table = read_table('파일명') tsv, csv. 등등 다양한 파일을 불러올 수 있음. read_table안의 추가 인수를 소개합니다. 추가 인수 내용 sep='|' |기준으로 데이터를 나눈다, seperate header=None 데이터 양식에 헤더가 없을 때, 맨 첫번째 행이 헤더가 되는 것을 막는다. name=user_cols 각 열(column)의 이름을 리스트로 구성해 대입시키면, 헤더 이름을 만들 수 있다. skiprows=None, skipfooter=None 데이터 안에 note같은 것이 들어있을 때, skip할수 있..
2019. 10. 12.