Chào mừng bạn đến blog Kế Toán.VN Trang Chủ

Table of Content

Trích xuất dữ liệu từ nhiều tệp csv python ✅ 2023

Kinh Nghiệm về Trích xuất tài liệu từ nhiều tệp csv python 2022

Hoàng Hải Minh đang tìm kiếm từ khóa Trích xuất tài liệu từ nhiều tệp csv python được Cập Nhật vào lúc : 2022-12-19 14:25:13 . Với phương châm chia sẻ Mẹo về trong nội dung bài viết một cách Chi Tiết 2022. Nếu sau khi đọc nội dung bài viết vẫn ko hiểu thì hoàn toàn có thể lại Comment ở cuối bài để Ad lý giải và hướng dẫn lại nha.

Tôi có nhiều tệp CSV, trong đó có tầm khoảng chừng gần 1k+ hàng trong mỗi tệp và chỉ có 2 cột, cột đầu tiên của mỗi tệp giống nhau đối với mọi tệp CSV nhưng cột thứ 2 dành riêng cho mọi giá trị khác ví như đối với Công suất động cơ xe máy . Tôi đã thử trích xuất tài liệu từ tất cả những tệp CSV và thêm chúng vào list nhưng tôi không sở hữu và nhận được câu vấn đáp thích hợp. Dưới đây là phương pháp tôi đã thử

Nội dung chính Show
    Làm cách nào để đọc 2 tệp CSV trong python?Làm cách nào để đọc nhiều tệp CSV trong python mà không cần gấu trúc?Làm cách nào để đọc tất cả CSV trong một thư mục Python?Làm cách nào để trích xuất tài liệu từ tệp CSV bằng Python bằng gấu trúc?
import numpy as np import pandas as pd import glob csvs = glob.glob('D:/Project/*.csv') print(csvs) a = [] for proj in csvs: df1 = pd.read_csv(proj, index_col=None, header = 0) a.append(df1) print(a)#Check Output 1 df2 = pd.concat(a, axis=0, ignore_index=True) df2.head()#check output 2

#Đầu ra 1

[Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]]

#Đầu ra 2

Unnamed: 0 enginecapacity fuel power 0 0 1500.134 NaN NaN 1 1 1299.132 NaN NaN 2 2 1200.455 NaN NaN 3 3 1700.456 NaN NaN 4 4 1430.232 NaN NaN

Nó không đưa ra đầu ra đúng chuẩn cho những cột khác, nó chỉ đưa ra đầu ra đúng chuẩn cho tệp đầu tiên, bất kể nó lấy gì và phần còn sót lại, nó cho NaN. Tôi đang làm gì ở đây

Thông thường, với tư cách là nhà phân tích tài liệu, bạn hoàn toàn có thể thấy mình bị quá tải với nhiều tệp CSV cần phải kết phù phù hợp với nhau trước khi bạn hoàn toàn có thể khởi đầu phân tích tài liệu có sẵn. Tuy nhiên, không phải lúc nào tất cả những tệp đều được trích xuất từ ​​cùng một nguồn tài liệu và có cùng cột tài liệu hoặc theo cùng một cấu trúc tài liệu

Trong hướng dẫn này, bạn sẽ tìm hiểu cách phối hợp nhiều CSV với cấu trúc cột tương tự hoặc rất khác nhau và cách sử dụng những hàm

#import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list5, #import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list6, #import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list7 và #import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list8 để làm như vậy

Trước khi chúng tôi làm điều đó, hãy xem cách nhập một tệp csv vào khung tài liệu bằng gói Pandas

1. Nhập tệp vào DataFrames của gấu trúc

Để nhập một tệp vào khung tài liệu, bạn chỉ việc sử dụng hàm

#import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list9________số 8

Khi bạn có nhiều tệp để thao tác, cách tốt nhất là dán tất cả những tệp vào một thư mục và sau đó đọc tất cả những tệp này bằng hàm

#import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list9

2. Thiết lập thư mục thao tác

Một phương pháp là chuyển đường dẫn của thư mục vào một biến và sau đó liệt kê tất cả những tệp trong thư mục đó

#import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list

Mặt khác, nếu bạn muốn đọc những tệp từ cùng thư mục với tệp ipynb của tớ, bạn hoàn toàn có thể sử dụng mã phía dưới

[Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]] 1

Phương pháp thứ ba là sử dụng hàm

[Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]] 11 để chỉ liệt kê những tệp csv từ thư mục thao tác[Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]] 3

Giờ đây, để đọc nhiều tệp CSV có cấu trúc bảng tương tự, bạn hoàn toàn có thể sử dụng những hàm

[Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]] 12 HOẶC [Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]] 13

Hãy xem 3 tệp CSV mẫu mà chúng tôi sẽ thao tác với

csv_sample1. csv

csv_sample2. csv

csv_sample3. csv

Cả ba tệp đều có tiêu đề cột giống nhau ngoại trừ csv_Sample2. csv có một cột tương hỗ update mang tên “Ngày sinh”. Ngoài ra, lưu ý rằng có 2 mục phổ biến giữa csv_Sample1. csv và csv_Sample2. csv, như được đánh dấu. Đây, mục nhập cho “Tom R. Powell” có những giá trị “Ngày tham gia” rất khác nhau trong cả hai tệp. Lưu ý cách những mục này được phối hợp trong tất cả những phương pháp được sử dụng phía dưới

3. Kết hợp nhiều tệp với cấu trúc bảng tương tự bằng gấu trúc. Khung tài liệu. nối thêm ()

Sử dụng đoạn mã dưới đây để đọc và phối hợp tất cả những tệp csv từ thư mục đã đặt trước đó

[Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]] 6

Kết quả sau khi sử dụng hàm

#import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list5 như phía dưới

Tại đây, bạn hoàn toàn có thể thấy rằng tất cả những hàng tài liệu từ những tệp đã được thêm vào phía dưới hàng khác. Tuy nhiên, những giá trị NaN đã được chèn vào cột “Ngày sinh” vì những giá trị này sẽ không còn trong csv_sample1. csv và csv_sample3. tệp csv

4. Kết hợp nhiều tệp với cấu trúc bảng tương tự bằng gấu trúc. concat()

Một cách khác để phối hợp những tệp là sử dụng

[Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]] 15, như hình phía dưới[Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]] 9

Bây giờ, nếu bạn muốn nối những hàng tài liệu của những tệp nhờ vào những cột liên quan thì bạn hoàn toàn có thể sử dụng hàm

[Unnamed: 0 engine capacity 0 0 1497.169492 1 1 1166.142857 2 2 1537.406593 3 3 1219.653846 4 4 1995.777778 [1035 rows x 2 columns], Unnamed: 0 fuel 0 0 petrol 1 1 petrol 2 2 electrical 3 3 electrical 4 4 electrical [1035 rows x 2 columns], Unnamed: 0 power 0 0 57.342 1 1 64.232 2 2 56.405 3 3 98.109 4 4 101.455 [1035 rows x 2 columns]] 16

5. Sử dụng gấu trúc. Khung tài liệu. merge() để nối những hàng tài liệu

Trước tiên, hãy tham khảo những tệp thành những tệp tài liệu riêng biệt như phía dưới

Unnamed: 0 enginecapacity fuel power 0 0 1500.134 NaN NaN 1 1 1299.132 NaN NaN 2 2 1200.455 NaN NaN 3 3 1700.456 NaN NaN 4 4 1430.232 NaN NaN 1

Unnamed: 0 enginecapacity fuel power 0 0 1500.134 NaN NaN 1 1 1299.132 NaN NaN 2 2 1200.455 NaN NaN 3 3 1700.456 NaN NaN 4 4 1430.232 NaN NaN 2

Bây giờ, trong khi sử dụng

#import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list7 Một trong những khung tài liệu này, bạn cần chỉ định những cột có liên quan mà bạn muốn nối những hàngUnnamed: 0 enginecapacity fuel power 0 0 1500.134 NaN NaN 1 1 1299.132 NaN NaN 2 2 1200.455 NaN NaN 3 3 1700.456 NaN NaN 4 4 1430.232 NaN NaN 4

Hàm chỉ nối tất cả những hàng khi tất cả những giá trị của những cột đã chỉ định khớp nhau

Ở đây, chúng tôi đã sử dụng phương pháp nối ngoài để hợp nhất những tệp. Để tìm hiểu thêm về loại hợp nhất sẽ được thực hiện, bạn hoàn toàn có thể tham khảo link này. gấu trúc. hợp nhất()

Trong ví dụ trên, chúng tôi đã chuyển một list những tên cột mà chúng tôi muốn nối những hàng. Thay vào đó, nếu tất cả chúng ta chỉ nối những hàng trên cột “E-Mail” thì tất cả chúng ta sẽ nhận được kết quả như phía dưới

Unnamed: 0 enginecapacity fuel power 0 0 1500.134 NaN NaN 1 1 1299.132 NaN NaN 2 2 1200.455 NaN NaN 3 3 1700.456 NaN NaN 4 4 1430.232 NaN NaN 5

Bây giờ, nếu bạn muốn tạo một khung tài liệu với những giá trị giả sử, csv_sample1. csv và bất kể nơi nào null, hãy lấy những giá trị từ một tệp khác, ví dụ như csv_sample2. csv sau đó sử dụng

#import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list8

6. Cập nhật giá trị null trong những cột từ những cột khác bằng gấu trúc. tổ hợp_đầu tiên()

Thay thế '_x' từ tiêu đề cột

#import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list0

Vượt qua tất cả những tên cột mà bạn muốn áp dụng

#import the modules
import os
import pandas as pd#read the path
file_path = "D:BlogMerge_Filescsv_files"#list all the files from the directory
file_list = os.listdir(file_path)
file_list8. Một cách thuận tiện và đơn giản là tìm nạp những cột có '_y' trong tiêu đề và sau đó xóa '_y' khỏi chúng, như phía dưới

Làm cách nào để đọc 2 tệp CSV trong python?

Đọc nhiều tệp CSV vào một khung bằng Python . Liên kết đến tài liệu nguồn gấu trúc. Qua read_csv. Thông qua read_csvs của Pyjanitor. Qua read_csv và dòng lệnh. Thông qua read_commandline của Pyjanitor bảng tài liệu. qua iread. qua fread. Qua fread và dòng lệnh Tài nguyên được sử dụng

Làm cách nào để đọc nhiều tệp CSV trong python mà không cần gấu trúc?

với open nhận 2 đối số, một là vị trí và tên tệp (còn được gọi là. đường dẫn tệp) và cách bạn muốn mở tệp (“r” để đọc, “w” để ghi). vì csvfile nghĩa là bạn sẽ mở tệp và gọi nó là csvfile, sau này được chuyển thành một đối số trong csv. trình đọc (csvfile, dấu phân cách =”,”) trên dòng 4

Làm cách nào để đọc tất cả CSV trong một thư mục Python?

Làm cách nào để đọc tất cả những tệp CSV trong pandas? . nhập khẩu toàn cầu nhập hệ điều hành nhập gấu trúc dưới dạng pd all_files = toàn cầu. toàn cầu ("động vật/*. csv") df = pd. concat((pd. read_csv(f) cho f trong all_files)) in (df)

Làm cách nào để trích xuất tài liệu từ tệp CSV bằng Python bằng gấu trúc?

Các bước để nhập tệp CSV vào Python bằng Pandas . Bước 1. Nắm bắt đường dẫn tệp. Đầu tiên, nắm bắt đường dẫn đầy đủ nơi tệp CSV của bạn được tàng trữ. . Bước 2. Áp dụng mã Python. . Bước 3. Chạy mã. . Bước tùy chọn. Chọn tập hợp con của những cột Tải thêm tài liệu liên quan đến nội dung bài viết Trích xuất tài liệu từ nhiều tệp csv python programming python

Video Trích xuất tài liệu từ nhiều tệp csv python ?

Bạn vừa tham khảo tài liệu Với Một số hướng dẫn một cách rõ ràng hơn về Review Trích xuất tài liệu từ nhiều tệp csv python tiên tiến nhất

Share Link Down Trích xuất tài liệu từ nhiều tệp csv python miễn phí

Bạn đang tìm một số trong những Share Link Down Trích xuất tài liệu từ nhiều tệp csv python miễn phí.

Hỏi đáp thắc mắc về Trích xuất tài liệu từ nhiều tệp csv python

Nếu sau khi đọc nội dung bài viết Trích xuất tài liệu từ nhiều tệp csv python vẫn chưa hiểu thì hoàn toàn có thể lại phản hồi ở cuối bài để Mình lý giải và hướng dẫn lại nha #Trích #xuất #dữ #liệu #từ #nhiều #tệp #csv #python - 2022-12-19 14:25:13

Post a Comment