Python for Data Science: Getting Started with Pandas

Pandas is the cornerstone of data science in Python. This powerful library provides data structures and functions needed to manipulate structured data efficiently. Whether you're analyzing sales data, processing sensor readings, or working with machine learning datasets, Pandas is your go-to tool.

What is Pandas?

Pandas is an open-source data analysis and manipulation library built on top of NumPy. It provides two primary data structures: DataFrames (2D tables) and Series (1D arrays). These structures make it easy to work with labeled data and perform complex operations.

Installation and Setup

First, let's install Pandas and the required dependencies:

# Install Pandas
pip install pandas numpy matplotlib seaborn

# Or using conda
conda install pandas numpy matplotlib seaborn

# Import the library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Creating DataFrames

There are several ways to create DataFrames in Pandas:

From Dictionary

# Create DataFrame from dictionary
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Diana'],
    'Age': [25, 30, 35, 28],
    'City': ['New York', 'London', 'Tokyo', 'Paris'],
    'Salary': [50000, 60000, 70000, 55000]
}

df = pd.DataFrame(data)
print(df)

From CSV File

# Read CSV file
df = pd.read_csv('data.csv')

# Read with specific parameters
df = pd.read_csv('data.csv', 
                index_col=0,           # Use first column as index
                parse_dates=['date'],  # Parse date columns
                na_values=['N/A'])     # Treat 'N/A' as NaN

From Excel File

# Read Excel file
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# Read multiple sheets
all_sheets = pd.read_excel('data.xlsx', sheet_name=None)

Basic DataFrame Operations

Let's explore the fundamental operations you'll use daily:

Viewing Data

# Display basic information
print(df.info())          # Data types and memory usage
print(df.describe())      # Statistical summary
print(df.head())          # First 5 rows
print(df.tail())          # Last 5 rows
print(df.shape)           # Dimensions (rows, columns)

# Display specific columns
print(df['Name'])         # Single column
print(df[['Name', 'Age']]) # Multiple columns

Data Selection and Filtering

# Select rows by index
print(df.iloc[0])         # First row
print(df.iloc[0:3])       # First 3 rows
print(df.iloc[0, 1])      # First row, second column

# Select rows by label
print(df.loc[0])          # Row with index 0
print(df.loc[0:2])        # Rows 0 to 2
print(df.loc[0, 'Name'])  # Specific cell

# Filter data
young_employees = df[df['Age'] < 30]
high_salary = df[df['Salary'] > 60000]
specific_city = df[df['City'] == 'New York']

Data Cleaning

Data cleaning is crucial for accurate analysis:

Handling Missing Values

# Check for missing values
print(df.isnull().sum())

# Drop rows with missing values
df_clean = df.dropna()

# Fill missing values
df['Age'].fillna(df['Age'].mean(), inplace=True)  # Fill with mean
df['City'].fillna('Unknown', inplace=True)        # Fill with string

# Forward fill (use previous value)
df.fillna(method='ffill', inplace=True)

Removing Duplicates

# Check for duplicates
print(df.duplicated().sum())

# Remove duplicates
df_unique = df.drop_duplicates()

# Remove duplicates based on specific columns
df_unique = df.drop_duplicates(subset=['Name', 'Email'])

Data Transformation

Transform your data to make it analysis-ready:

Adding New Columns

# Create new column based on existing data
df['Age_Group'] = df['Age'].apply(lambda x: 'Young' if x < 30 else 'Adult')

# Create column with calculations
df['Salary_Per_Year'] = df['Salary'] * 12

# Create column with conditions
df['High_Earner'] = df['Salary'] > df['Salary'].mean()

Grouping and Aggregation

# Group by single column
city_stats = df.groupby('City').agg({
    'Age': 'mean',
    'Salary': ['mean', 'count', 'std']
})

# Group by multiple columns
age_city_stats = df.groupby(['Age_Group', 'City']).mean()

# Custom aggregation
def salary_range(series):
    return series.max() - series.min()

df.groupby('City')['Salary'].agg(salary_range)

Data Analysis Examples

Let's work through a real-world example:

Sales Data Analysis

# Load sales data
sales_df = pd.read_csv('sales_data.csv')

# Basic exploration
print("Dataset shape:", sales_df.shape)
print("\nFirst few rows:")
print(sales_df.head())

print("\nData types:")
print(sales_df.dtypes)

print("\nMissing values:")
print(sales_df.isnull().sum())

# Convert date column
sales_df['Date'] = pd.to_datetime(sales_df['Date'])

# Add time-based columns
sales_df['Year'] = sales_df['Date'].dt.year
sales_df['Month'] = sales_df['Date'].dt.month
sales_df['DayOfWeek'] = sales_df['Date'].dt.day_name()

# Calculate total sales
sales_df['Total_Sales'] = sales_df['Quantity'] * sales_df['Price']

# Monthly sales summary
monthly_sales = sales_df.groupby('Month')['Total_Sales'].sum()
print("\nMonthly Sales:")
print(monthly_sales)

Data Visualization

Pandas integrates well with Matplotlib and Seaborn for visualization:

# Set up plotting
plt.style.use('seaborn-v0_8')
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Sales trend over time
monthly_sales.plot(kind='line', ax=axes[0,0], title='Monthly Sales Trend')
axes[0,0].set_ylabel('Total Sales')

# Sales by product category
category_sales = sales_df.groupby('Category')['Total_Sales'].sum()
category_sales.plot(kind='bar', ax=axes[0,1], title='Sales by Category')
axes[0,1].tick_params(axis='x', rotation=45)

# Price distribution
sales_df['Price'].hist(bins=20, ax=axes[1,0], title='Price Distribution')
axes[1,0].set_xlabel('Price')

# Sales by day of week
dow_sales = sales_df.groupby('DayOfWeek')['Total_Sales'].sum()
dow_sales.plot(kind='bar', ax=axes[1,1], title='Sales by Day of Week')
axes[1,1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

Advanced Operations

Some advanced techniques for complex data analysis:

Pivot Tables

# Create pivot table
pivot_table = sales_df.pivot_table(
    values='Total_Sales',
    index='Category',
    columns='Month',
    aggfunc='sum',
    fill_value=0
)

print(pivot_table)

Merging DataFrames

# Merge two DataFrames
customers_df = pd.read_csv('customers.csv')
merged_df = pd.merge(sales_df, customers_df, on='Customer_ID', how='left')

# Concatenate DataFrames
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
combined_df = pd.concat([df1, df2], ignore_index=True)

Time Series Analysis

# Set date as index
sales_df.set_index('Date', inplace=True)

# Resample to different frequencies
daily_sales = sales_df['Total_Sales'].resample('D').sum()
weekly_sales = sales_df['Total_Sales'].resample('W').sum()
monthly_sales = sales_df['Total_Sales'].resample('M').sum()

# Calculate rolling averages
sales_df['7_day_avg'] = sales_df['Total_Sales'].rolling(window=7).mean()
sales_df['30_day_avg'] = sales_df['Total_Sales'].rolling(window=30).mean()

Performance Tips

Optimize your Pandas code for better performance:

Use vectorized operations: Avoid loops when possible
Choose appropriate data types: Use category for repeated strings
Use query() for complex filtering: More readable and often faster
Consider chunking for large files: Process data in chunks
Use .loc and .iloc efficiently: Avoid chained indexing

# Efficient filtering
# Instead of: df[df['Age'] > 30][df['Salary'] > 50000]
# Use: df.query('Age > 30 and Salary > 50000')

# Efficient data types
df['Category'] = df['Category'].astype('category')

# Chunking for large files
chunk_size = 10000
for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):
    process_chunk(chunk)

Common Pitfalls and Solutions

SettingWithCopyWarning: Use .copy() when creating new DataFrames
Memory issues: Use appropriate data types and chunking
Index confusion: Understand the difference between .loc and .iloc
Date parsing: Always specify date format for better performance

Conclusion

Pandas is an incredibly powerful tool for data analysis and manipulation. This introduction covers the essential concepts you need to get started, but there's much more to explore. Practice with real datasets, experiment with different operations, and gradually build your expertise.

Remember that data science is an iterative process. Start with basic operations, clean your data thoroughly, explore patterns through visualization, and always validate your results. With practice, you'll become proficient in using Pandas for complex data analysis tasks.

Python Pandas Data Science Data Analysis