Data Science – Python programming examples

Dataframe column values

import pandas as pd # Create data frame from csv filedf=pd.read_csv(“e://data/state-population.csv”) # Dataframe column values df[[‘year’, ‘population’]].head() # Dataframe column valuesdf.values Output array([[‘AL’, ‘under18’, 2012, 1117489.0], [‘AL’, ‘total’, 2012, 4817528.0], [‘AL’, ‘under18’, 2010, 1130966.0], …, [‘USA’, ‘total’, 2011, 311582564.0], [‘USA’, ‘under18’, 2012, 73708179.0], [‘USA’, ‘total’, 2012, 313873685.0]], dtype=object) year 0 2012 1117489.0 1 2012 4817528.0Continue reading “Dataframe column values”

Data frame sorting on multiple columns

Dataframe drop duplicates

dataframe drop duplicates

Data cleaning

import pandas as pddf = pd.read_csv(“e://data/CustomerList.csv”)print(df)Output id name type city0 100 John NaN Boston1 101 Bob Online Chicago2 102 NaN Retail NaN3 103 ? NaN NaN# Checking for null values for all columnsdf.isnull().any()Outputid Falsename Truetype Truecity Truedtype: bool#Checking for null values for type columnprint(df[df[‘type’].isnull()].head())Outputid name type city0 100 John NaN Boston3 103 ? NaN NaNContinue reading “Data cleaning”

Dataframe statistical info

import pandas as pd# Create data frame from csv filedf=pd.read_csv(“e://data/state-population.csv”)#Statistical information about data framedf.describe() Output

Dataframe metadata

import pandas as pd # Create data frame from csv file df=pd.read_csv(“e://data/state-population.csv”) #Meta data about data frame df.info() Output <class ‘pandas.core.frame.DataFrame’> RangeIndex: 2544 entries, 0 to 2543 Data columns (total 4 columns): state/region 2544 non-null object ages 2544 non-null object year 2544 non-null int64 population 2524 non-null float64 dtypes: float64(1), int64(1), object(2) memory usage: 79.6+Continue reading “Dataframe metadata”

Dataframe index

import pandas as pd# Create data frame from csv filedf=pd.read_csv(“e://data/state-population.csv”)print(df.set_index(‘year’).head(3)) Outputstate/region ages populationyear 2012 AL under18 1117489.02012 AL total 4817528.02010 AL under18 1130966.0 #indexing on multiple columnsprint(df.set_index([‘year’,’state/region’]).head(3)) Outputages populationyear state/region 2012 AL under18 1117489.0AL total 4817528.02010 AL under18 1130966.0

Dataframe rename columns

import pandas as pd# Create data frame from csv filedf=pd.read_csv(“e://data/state-population.csv”)# Rename column state/region to state-regionprint(df.rename(columns={‘state/region’:’state-region’}).head(2)) Outputstate-region ages year population0 AL under18 2012 1117489.01 AL total 2012 4817528.0 #Change column names in upper caseprint(df.rename(str.upper,axis=’columns’).head(2)) OutputSTATE/REGION AGES YEAR POPULATION0 AL under18 2012 1117489.01 AL total 2012 4817528.0

Dataframe logical operators

# Dataframe data retrieval using & logical operator.import pandas as pd# Create data frame from csv filedf=pd.read_csv(“e://data/state-population.csv”)# Data retrieval for state AL in year 2012print(df[(df[‘state/region’]==’AL’) & (df[‘year’]==2012)].head()) Output state/region ages year population0 AL under18 2012 1117489.01 AL total 2012 4817528.0 # data retrieval state AL and NY (First 5 rows)df[(df[‘state/region’]==’AL’) | (df[‘state/region’]==’NY’)].head() Output

Dataframe condition

import pandas as pd # Create data frame from csv file df=pd.read_csv(“e://data/state-population.csv”) # data retrieval for year 2013 (First 5 rows) print(df[df.year==2013].head()) Output state/region ages year population 8 AL under18 2013 1111481.0 9 AL total 2013 4833722.0 86 AK under18 2013 188132.0 87 AK total 2013 735132.0 102 AZ under18 2013Continue reading “Dataframe condition”