Lần đầu tiên tôi bắt đầu làm việc với các tệp CSV khi học phần phụ trợ trong chương trình đào tạo bootcamp kỹ thuật phần mềm của mình. Mãi cho đến khi tôi bắt đầu đi sâu hơn vào phần khoa học dữ liệu trong quá trình học liên tục của mình, tôi mới bắt đầu sử dụng chúng một cách thường xuyên
CSV là viết tắt của các giá trị được phân tách bằng dấu phẩy và các tệp chứa phần mở rộng .csv
chứa một tập hợp các giá trị được phân tách bằng dấu phẩy được sử dụng để lưu trữ dữ liệu
Trong hướng dẫn này, chúng tôi sẽ sử dụng bộ dữ liệu Beach Water Quality
công khai được lưu trữ trong tệp bwq.csv
. Bạn có thể lấy tệp bằng cách tải xuống từ Kaggle, tuy nhiên, bạn sẽ có thể đọc bất kỳ tệp csv nào theo hướng dẫn bên dưới
Đọc tệp CSV bằng Python
Có hai cách phổ biến để đọc tệp .csv
khi sử dụng Python. Cách thứ nhất bằng cách sử dụng thư viện csv
và cách thứ hai bằng cách sử dụng thư viện pandas
1. Sử dụng Thư viện CSV
import csv
with open["./bwq.csv", 'r'] as file:
csvreader = csv.reader[file]
for row in csvreader:
print[row]
Ở đây chúng tôi đang nhập thư viện csv
để sử dụng phương pháp
import pandas as pd
data = pd.read_csv["bwq.csv"]
data
1 mà nó chứa để giúp chúng tôi đọc tệp csv
Từ khóa
import pandas as pd
data = pd.read_csv["bwq.csv"]
data
3 cho phép chúng ta mở và đóng tệp mà không cần phải đóng tệp một cách rõ ràngPhương thức
import pandas as pd
data = pd.read_csv["bwq.csv"]
data
4 nhận hai đối số kiểu import pandas as pd
data = pd.read_csv["bwq.csv"]
data
5. Đầu tiên là tên tệp và thứ hai là đối số chế độ. Chúng tôi đang sử dụng import pandas as pd
data = pd.read_csv["bwq.csv"]
data
6 để đọc, tuy nhiên điều này có thể được bỏ qua vì import pandas as pd
data = pd.read_csv["bwq.csv"]
data
6 được giả định theo mặc địnhSau đó chúng tôi lặp lại trên tất cả các hàng
Bạn sẽ mong đợi một đầu ra trong thiết bị đầu cuối trông giống như thế này
2. Sử dụng thư viện Pandas
import pandas as pd
data = pd.read_csv["bwq.csv"]
data
Ở đây chúng tôi đang nhập Pandas, một thư viện Python được sử dụng để tiến hành thao tác và phân tích dữ liệu. Nó chứa phương pháp
import pandas as pd
data = pd.read_csv["bwq.csv"]
data
8 mà chúng tôi cần để đọc tệp csv
của chúng tôiBạn nên mong đợi đầu ra trông giống như thế này
Các vấn đề về dấu phân cách có thể xảy ra
Phần lớn các tệp csv
được phân tách bằng dấu phẩy, tuy nhiên, có một số tệp được phân tách bằng các ký tự khác, chẳng hạn như dấu hai chấm, có thể tạo ra kết quả lạ trong Python
Giải pháp cho dấu phân cách bằng thư viện CSV
Để thay đổi dấu phân cách bằng thư viện csv
, chỉ cần chuyển đối số
import csv
with open["./fileWithColonDelimeter.csv", 'r'] as file:
csvreader = csv.reader[file, delimiter=':']
for row in csvreader:
print[row]
2 trong phương thức import csv
with open["./fileWithColonDelimeter.csv", 'r'] as file:
csvreader = csv.reader[file, delimiter=':']
for row in csvreader:
print[row]
3 như vậyimport csv
with open["./fileWithColonDelimeter.csv", 'r'] as file:
csvreader = csv.reader[file, delimiter=':']
for row in csvreader:
print[row]
Đối với các trường hợp cạnh khác khi đọc các tệp csv
bằng thư viện csv
, hãy xem trang này trong tài liệu Python
Giải pháp cho dấu phân cách bằng thư viện Pandas
Để thay đổi dấu phân cách bằng thư viện pandas
, chỉ cần chuyển đối số
import csv
with open["./fileWithColonDelimeter.csv", 'r'] as file:
csvreader = csv.reader[file, delimiter=':']
for row in csvreader:
print[row]
2 trong phương thức import csv
with open["./fileWithColonDelimeter.csv", 'r'] as file:
csvreader = csv.reader[file, delimiter=':']
for row in csvreader:
print[row]
8 như vậyimport pandas as pd
data = pd.read_csv["fileWithColonDelimeter.csv", delimiter= ':']
data
Đối với các trường hợp cạnh khác khi đọc tệp csv
bằng thư viện Pandas, hãy xem trang này tài liệu Pandas
Tiếp theo
Để có hướng dẫn sâu hơn về những gì bạn có thể làm sau khi đọc tệp csv
, hãy xem Lập biểu đồ lượng mưa bằng Python, Pandas và Matplotlib của Alex Couture-Beil