import pandas as pd
data = pd.read_csv('../files/SPARCS_2014_compressed.csv.gz')

data

data.to_numpy()

data.columns

data.Gender  # get gender column

data["CCS Diagnosis Code"][:3] # can't use dot syntax if column name has spaces

data[:1]

data[0]

data.iloc[3,1]

data.iloc[0,:]

data.loc[:3, 'Gender']

data.loc[[0,3,5],['CCS Diagnosis Description','CCS Diagnosis Code']]

data[10:20]

data[10:20].iloc[[0,3,5]]

data[10:20].iloc[[0,3,5]]

data[data.Gender == 'M'][:3]

data.iloc[:,[0,3,5]][:3]

data.sort_values(by="Total Charges").head(3)

data.sort_values(by="Total Charges",ascending=False).head(3)

data['Total Charges'] = data['Total Charges'].str.lstrip('$').astype(float)

data.sort_values(by="Total Charges",ascending=False).head(3)

# setting errors='coerce' below will result in NaN values for invalid input
data['Length of Stay'] = pd.to_numeric(data['Length of Stay'], errors='coerce')
data['Length of Stay'] = data['Length of Stay'].fillna(120)

data['Charge per day'] = data['Total Charges']/data['Length of Stay']

data

pd.to_numeric('120 +',errors='coerce')

pd.to_numeric('120 +',errors='ignore')

pd.to_numeric('120 +')

data.groupby('Facility ID')

# note: make sure mean() is only applied to columns with numerical values, or you will get an error
data.groupby('Facility ID').mean(numeric_only=True).sort_values(by='Total Charges')

data.groupby('Gender').mean(numeric_only=True).sort_values(by='Total Charges').loc[:,['Total Charges']]

data.groupby('Gender').mean(numeric_only=True).sort_values(by='Total Charges').reset_index().loc[:,['Gender','Total Charges']]

data.groupby(['CCS Procedure Description','Gender'])['Total Charges'].mean()

gendercosts = data.groupby(['CCS Procedure Description','Gender'])['Total Charges'].mean().unstack()
gendercosts

genderdiffs = gendercosts.F - gendercosts.M
genderdiffs

genderdiffs.dropna(inplace=True)  #remove rows with NaN, modify genderdiffs in place
genderdiffs

genderdiffs.sort_values().head(5)

genderdiffs.sort_values().tail(5)

df1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    },
    index=[0, 1, 2, 3],
)

df2 = pd.DataFrame(
    {
        "B": ["B2", "B3", "B6", "B7"],
        "D": ["D2", "D3", "D6", "D7"],
        "F": ["F2", "F3", "F6", "F7"],
    },
    index=[2, 3, 6, 7],
)

df1

df2

pd.concat([df1,df2])

left = pd.DataFrame({"key": ["K0", "K1", "K2", "K3"],
                     "A": ["A0", "A1", "A2", "A3"],
                     "B": ["B0", "B1", "B2", "B3"],})


right = pd.DataFrame({"key": [ "K1", "K2", "K4"],
                      "C": ["C1", "C2", "C4"],
                      "D": ["D1", "D2", "D4"],})

left

right

pd.merge(left,right,on='key',how='inner')

pd.merge(left,right,on='key',how='outer')

pd.merge(left, right, on='key', how='left')

pd.merge(left, right, on='key', how='right')

More tabular data with `pandas`¶

SPARCS medical record data¶

Analyzing the data with `pandas`¶

Format conversion¶

Data access¶

Data access¶

No (default) access by number¶

`.iloc`: Position indexing¶

`.loc`: Label indexing¶

Row slices¶

Note: `.loc` indices are absolute, not relative¶

Boolean Indexing¶

Sorting¶

Is $99,999.65 the most expensive record?¶

String methods¶

Correct sorting¶

Creating new columns¶

Error handling¶

Group by¶

Example¶

Example¶

`unstack` pivots a level of the (necessarily hierarchical) index labels¶

Combining DataFrames¶

Join¶

Inner join¶

Outer join¶

Left (right) join¶

Questions¶

For next time¶

More tabular data with pandas¶

SPARCS medical record data¶

Analyzing the data with pandas¶

Format conversion¶

Data access¶

Data access¶

No (default) access by number¶

.iloc: Position indexing¶

.loc: Label indexing¶

Row slices¶

Note: .loc indices are absolute, not relative¶

Boolean Indexing¶

Sorting¶

Is $99,999.65 the most expensive record?¶

String methods¶

Correct sorting¶

Creating new columns¶

Error handling¶

Group by¶

Example¶

Example¶

unstack pivots a level of the (necessarily hierarchical) index labels¶

Combining DataFrames¶

Join¶

Inner join¶

Outer join¶

Left (right) join¶

Questions¶

For next time¶

More tabular data with `pandas`¶

Analyzing the data with `pandas`¶

`.iloc`: Position indexing¶

`.loc`: Label indexing¶

Note: `.loc` indices are absolute, not relative¶

`unstack` pivots a level of the (necessarily hierarchical) index labels¶