This introduction to pandas is derived from Data School's pandas Q&A with my own notes and code.

Finding and removing duplicate rows in pandas¶

import pandas as pd

# read a dataset of movie reviewers (modifying the default parameter values for read_table)
user_cols = ['user_id', 'age', 'gender', 'occupation', 'zip_code']
url = 'http://bit.ly/movieusers'
users = pd.read_table(url, sep='|', header=None, names=user_cols, index_col='user_id')

users.head()

users.shape

(943, 4)

If we want to identify duplicate zip_code rows

# use df.cat_name.duplicated()
# output True if row above is the same
users.zip_code.duplicated()

user_id
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29      True
30     False
       ...  
914    False
915    False
916    False
917    False
918    False
919     True
920    False
921    False
922     True
923    False
924    False
925    False
926    False
927    False
928     True
929     True
930    False
931    False
932    False
933    False
934     True
935    False
936    False
937     True
938    False
939    False
940     True
941    False
942    False
943    False
Name: zip_code, dtype: bool

# type
type(users.zip_code.duplicated())

pandas.core.series.Series

# we can use .count() since it's a series
# there're 148 duplicates
users.zip_code.duplicated().sum()

148

# it will output True if entire row is duplicated (row above)
users.duplicated()

user_id
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
30     False
       ...  
914    False
915    False
916    False
917    False
918    False
919    False
920    False
921    False
922    False
923    False
924    False
925    False
926    False
927    False
928    False
929    False
930    False
931    False
932    False
933    False
934    False
935    False
936    False
937    False
938    False
939    False
940    False
941    False
942    False
943    False
dtype: bool

# examine duplicated rows
users.loc[users.duplicated(), :]

# keep='first'
# mark duplicates as True except for the first occurence
users.loc[users.duplicated(keep='first'), :]

# keep='last'
# 7 rows that are counted as duplicates, keeping the later one

# this is useful for splitting the data
users.loc[users.duplicated(keep='last'), :]

# mark all duplicates as True
# this combines the two tables above
users.loc[users.duplicated(keep=False), :]

Dropping duplicates

# drops the 7 rows
users.drop_duplicates(keep='first').shape

(936, 4)

# drops the last version of the 7 duplicate rows
users.drop_duplicates(keep='last').shape

(936, 4)

# drops all 14 rows
users.drop_duplicates(keep=False).shape

(929, 4)

# only consider "age" and "zip_code" as the relevant columns
users.duplicated(subset=['age', 'zip_code']).sum()

16

	age	gender	occupation	zip_code
user_id
1	24	M	technician	85711
2	53	F	other	94043
3	23	M	writer	32067
4	24	M	technician	43537
5	33	F	other	15213

	age	gender	occupation	zip_code
user_id
496	21	F	student	55414
572	51	M	educator	20003
621	17	M	student	60402
684	28	M	student	55414
733	44	F	other	60630
805	27	F	other	20009
890	32	M	student	97301

	age	gender	occupation	zip_code
user_id
496	21	F	student	55414
572	51	M	educator	20003
621	17	M	student	60402
684	28	M	student	55414
733	44	F	other	60630
805	27	F	other	20009
890	32	M	student	97301

	age	gender	occupation	zip_code
user_id
67	17	M	student	60402
85	51	M	educator	20003
198	21	F	student	55414
350	32	M	student	97301
428	28	M	student	55414
437	27	F	other	20009
460	44	F	other	60630

	age	gender	occupation	zip_code
user_id
67	17	M	student	60402
85	51	M	educator	20003
198	21	F	student	55414
350	32	M	student	97301
428	28	M	student	55414
437	27	F	other	20009
460	44	F	other	60630
496	21	F	student	55414
572	51	M	educator	20003
621	17	M	student	60402
684	28	M	student	55414
733	44	F	other	60630
805	27	F	other	20009
890	32	M	student	97301

Removing duplicate rows

Finding and removing duplicate rows in pandas¶