Trích xuất dữ liệu từ url sang excel
Các doanh nghiệp dựa vào internet để lấy tất cả các loại thông tin quan trọng—từ thông tin liên hệ, theo dõi vận chuyển, giá cả của đối thủ cạnh tranh, dữ liệu từ các cổng, v.v. Và mặc dù những tác vụ này có vẻ đơn giản nhưng việc tìm kiếm các trang web và cổng cũng như sao chép và dán thông tin vào Excel có thể nhanh chóng chiếm nhiều thời gian quý báu của bạn. Ngoài ra, việc nhập dữ liệu vào bảng tính theo cách thủ công rất dễ xảy ra lỗi do con người. Nhưng với tự động hóa quy trình bằng rô-bốt (RPA), bạn có thể hợp lý hóa các tác vụ lặp đi lặp lại này bằng cách thu thập dữ liệu tự động từ các trang web Show
Tính năng quét dữ liệu tự động thu thập dữ liệu trên nhiều nguồn và kéo dữ liệu đó vào một điểm—chẳng hạn như bảng tính Excel—để loại bỏ lỗi và giúp bạn có thời gian quay lại làm việc với các dự án quan trọng hơn. Đây chỉ là một số cách mà các công ty thực sự đang sử dụng quét dữ liệu tự động
Các bước để thu thập dữ liệu từ trang web sang ExcelChữ Có một số cách để cạo dữ liệu từ một trang web liên quan đến việc tạo các thuật toán lọc và xử lý tùy chỉnh cho từng trang web. Những điều này yêu cầu bạn viết các tập lệnh bổ sung hoặc tạo một công cụ riêng để tích hợp dữ liệu đã loại bỏ với phần còn lại của cơ sở hạ tầng CNTT của bạn. Nhưng với công cụ thu thập dữ liệu từ Automate, giải pháp RPA từ Fortra, bạn có thể dễ dàng lấy thông tin từ các trang web và đưa trực tiếp vào trang tính Excel để phân tích—tất cả mà không cần viết bất kỳ mã nào Trong video bên dưới, bạn sẽ thấy bot Automate đang chạy một tác vụ nhập số theo dõi của UPS vào trang web của UPS, thực hiện quét dữ liệu tự động để nhận thông tin theo dõi giao hàng và nhập thông tin đó vào tệp Excel. Sau khi tác vụ chạy, nó tiếp tục hiển thị tác vụ đó được xây dựng như thế nào. Xem và sau đó tự mình thử với hướng dẫn từng bước hữu ích này Phương tiện truyền thông
Chữ Trong video ở trên, bạn sẽ thấy bot Automate đang chạy tác vụ nhập số theo dõi của UPS vào trang web của UPS, thực hiện quét dữ liệu tự động để nhận thông tin theo dõi giao hàng và nhập thông tin đó vào tệp Excel. Sau khi tác vụ chạy, nó tiếp tục hiển thị tác vụ đó được xây dựng như thế nào. Tất cả trừ bước 1 được hiển thị trong video Bước 1. Tải xuống bản dùng thử Automate Bước 2. Xây dựng nhiệm vụ bằng cách bắt đầu với các biến. (Nếu bạn cần kiến thức cơ bản về cách xây dựng các tác vụ Automate, Automate Academy là một nơi tuyệt vời để học. ) Trong tác vụ này, bạn sẽ thêm các biến cho tên tệp, hàng, v.v. Lưu ý rằng trình tạo tác vụ này được kéo và thả, không cần viết mã Bước 3. Mở sổ làm việc Excel để lấy số theo dõi. Bạn sẽ lưu trữ dữ liệu này dưới dạng tập dữ liệu để sử dụng sau này Bước 4. Thêm một bước để tạo sổ làm việc báo cáo để ghi tập dữ liệu vào Bước 5. Sử dụng sổ làm việc báo cáo với số theo dõi và tiêu đề cột trong hoạt động của trình duyệt web Bước 6. Xác định những mẩu thông tin bạn cần. Điều này sẽ bao gồm việc cho bot Automate biết nơi tìm dữ liệu bạn muốn thu thập. Đặt vòng lặp này để duyệt qua tất cả các số theo dõi để thực hiện quét dữ liệu tự động từ trang web của UPS vào Excel Bước 7. Đối với mỗi phần dữ liệu bạn muốn thu thập từ trang web, hãy ghi giá trị biến vào một ô trong sổ làm việc Đây chỉ là một ví dụ về tự động hóa Excel. Có rất nhiều cách khác để Automate và Excel có thể phối hợp với nhau để loại bỏ công việc thủ công khỏi đĩa của bạn Tải xuống Automate và tự mình dùng thửBắt đầu với Automate và xem cách các công cụ trích xuất dữ liệu của chúng tôi giữ cho dữ liệu quan trọng của bạn luôn di chuyển mà không cần thực hiện các tác vụ thủ công tẻ nhạt hoặc viết tập lệnh tùy chỉnh Bạn có biết rằng Microsoft Excel có tính năng tích hợp sẵn để trích xuất dữ liệu từ trang web sang Excel bằng Truy vấn Web không? . Bài viết này bao gồm tất cả các cách có thể để trích xuất dữ liệu web công khai từ các trang web với sự trợ giúp của Truy vấn web. Cách quét web trong Excel hoạt độngMicrosoft Web Query sử dụng Trình duyệt web của Hệ điều hành, thường là Internet Explorer trong Windows cũ hơn và Edge trong các phiên bản mới nhất, để tải trang web. Điều này cho phép Truy vấn web hiển thị các trang web nặng về JavaScript mà không gặp rắc rối. Khi trang web tải xong, Truy vấn web sẽ tự động phân tích cú pháp toàn bộ trang và tìm tất cả các bảng HTML tĩnh có liên quan. Nó sẽ làm nổi bật tất cả các bảng và làm cho chúng có thể lựa chọn. Sau khi người dùng chọn bảng mong muốn, Truy vấn web sẽ giúp trích xuất dữ liệu bảng. Cách cạo dữ liệu trang web bằng Web Query ExcelBây giờ bạn đã học về Truy vấn web, hãy thử thu thập dữ liệu từ internet. Trong hướng dẫn này, bạn sẽ thấy một ví dụ về cách cạo "sách. để cạo. com", trích xuất thông tin của cuốn sách và lưu nó vào bảng tính Excel. Bạn cũng sẽ tìm hiểu và khám phá các tính năng Truy vấn web khác nhau trong quá trình thực hiện. Trước khi bắt đầu quá trình cạo, bạn cần đảm bảo rằng
Khi bạn đã cài đặt Microsoft Office, bạn có thể làm theo các bước sau Bước 1. Mở một bảng tính trống Bạn cần mở một bảng tính trống trong Microsoft Excel và nhấp vào "Dữ liệu" từ menu Bước 2. Nhấp vào tùy chọn "Từ Web" Sau khi nhấp vào "Dữ liệu", bạn sẽ thấy một menu mới với nhiều tùy chọn khác nhau để trích xuất dữ liệu. Chọn tùy chọn "Từ Web" và nhấp vào tùy chọn đó. Nó sẽ mở ra một cửa sổ mới Bước 3. Nhập URL của trang web vào thanh địa chỉ và nhấp vào "Đi" Bạn sẽ thấy một thanh địa chỉ trong cửa sổ "Truy vấn web mới". Trong hộp văn bản này, bạn cần nhập URL "https. //sách. để cạo. com" và nhấp vào "Đi. " Bước 4. Điều hướng đến trang sách Sau khi nhấp vào nút "Đi", bạn sẽ thấy một trang web trong trình duyệt web mini. Bạn có thể tương tác và duyệt trang web tại đây. Cuộn xuống và nhấp vào liên kết sách để mở trang sách Bước 5. Chọn bảng mong muốn để cạo Nếu bạn cuộn xuống một chút, bạn sẽ tìm thấy một bảng trên trang sách. Sẽ có một biểu tượng mũi tên nhỏ màu vàng mà bạn có thể nhấp vào. Nhấp vào nút sẽ chọn bảng được liên kết với nó. Khi bảng được chọn, nhấp vào nút "Nhập" bên dưới Bước 6. Chọn tùy chọn "Bảng tính hiện có" và nhấp vào "OK" Khi bạn nhấp vào nút "Nhập", một cửa sổ nhỏ sẽ xuất hiện, tương tự như ảnh chụp màn hình bên dưới. Đảm bảo tùy chọn "Existing worksheet" được chọn và nhấp vào "OK. " Và đó là nó. Truy vấn web sẽ tạo một quy trình nền để chạy yêu cầu web và tìm nạp trang web. Sau khi lấy trang web sẽ phân tích cú pháp bảng và trích xuất dữ liệu vào các cột excel. Đầu ra sẽ tương tự như ví dụ dưới đây đầu raBạn có thể khớp nó với trang web và xác thực rằng tất cả dữ liệu từ bảng là chính xác Tất cả các cột và hàng sẽ được liên kết với truy vấn web, vì vậy, bất cứ khi nào bạn làm mới dữ liệu theo cách thủ công hoặc tự động, Microsoft Excel sẽ biết những hàng hoặc cột nào cần cập nhật. Phần tiếp theo khám phá nhiều cách để làm mới và cập nhật dữ liệu. Cách cập nhật và làm mới dữ liệuChủ yếu có hai cơ chế làm mới khác nhau dành cho Truy vấn web. Ở chế độ tự động, Excel sẽ định kỳ kéo dữ liệu trong nền và giữ cho trang tính được cập nhật. Bạn cũng có thể tùy chỉnh thời lượng theo nhu cầu của mình – bạn sẽ tìm thấy lời giải thích sau trong bài viết này. Trước đó, hãy khám phá nhiều cách làm mới dữ liệu thủ công. Trước tiên, hãy xóa một vài mục khỏi dữ liệu được trích xuất để xác thực quá trình làm mới hoạt động như mong đợi Lưu ý rằng chúng tôi đã loại bỏ giá, thuế và tình trạng còn hàng khỏi dữ liệu lựa chọn 1. Nhấp vào "Làm mới" từ menu trên cùng Trên menu trên cùng, bên dưới menu con "Dữ liệu", có một nút có tên "Làm mới. " Bạn có thể lấy dữ liệu mới nhất bằng cách nhấp vào nút này hoặc chọn phím tắt trên bàn phím – tổ hợp nút "CTRL + ALT + F5". Sau khi bạn lấy dữ liệu mới nhất, các giá trị còn thiếu về giá, thuế và tình trạng còn hàng sẽ được làm mới với thông tin mới nhất Lựa chọn 2. Làm mới từ menu ngữ cảnh Hãy xóa lại một số trường để thử nghiệm một cách làm mới dữ liệu khác. Lần này, chúng tôi sẽ sử dụng nút "Làm mới" của menu ngữ cảnh thay vì nút menu. Trước tiên, bạn cần nhấp chuột phải vào một ô và chọn "Làm mới. " Lưu ý rằng bạn sẽ phải bấm vào các ô do Truy vấn web quản lý. Nếu bạn bấm vào các ô khác, nút "Làm mới" này sẽ không xuất hiện Tùy chọn 3. Chỉnh sửa và chạy lại Truy vấn Bây giờ, chúng tôi sẽ xóa một số trường và sau đó thử một phương pháp khác để cập nhật dữ liệu. Sau khi xóa một số dữ liệu, nhấp chuột phải vào ô và bạn sẽ thấy tùy chọn "Chỉnh sửa truy vấn. " Nhấn vào nó Nó sẽ mở ra một cửa sổ mới có tên "Chỉnh sửa truy vấn web. " Nếu bạn nhấp vào "Nhập", truy vấn web sẽ chạy quy trình nền để tìm nạp các bản cập nhật mới nhất từ trang web và làm mới dữ liệu hiện có, thay thế dữ liệu lỗi thời bằng thông tin mới Phương pháp này hữu ích nếu bạn muốn cập nhật trình cạp, e. g. , thay đổi URL của trang web, cập nhật truy vấn để tìm nạp một bảng hoặc trang khác, v.v. Bây giờ, hãy cùng tìm hiểu cách tự động hóa quá trình làm mới/cập nhật Định cấu hình làm mới tự động từ thuộc tínhCác bước cấu hình quá trình làm mới tự động từ các thuộc tính khá đơn giản. Đầu tiên, mở lại menu ngữ cảnh bằng cách nhấp chuột phải vào ô được liên kết với Truy vấn web. Từ menu, chọn "Thuộc tính phạm vi dữ liệu. " Điều này sẽ mở ra cửa sổ "External Data Range Properties", tương tự như ví dụ bên dưới Trong cửa sổ này, hãy tìm phần "Làm mới điều khiển". Bằng cách tùy chỉnh phần này, bạn có thể tự động làm mới dữ liệu. Hãy tiếp tục và nhấp vào hộp kiểm "Bật làm mới nền". Sau đó, bằng cách sử dụng hộp kiểm thứ hai, bạn có thể yêu cầu Excel làm mới dữ liệu định kỳ. Ví dụ: nếu bạn đặt nó làm mới 5 phút một lần, Excel sẽ tự động lấy dữ liệu cứ sau 5 phút bằng một quy trình nền và tự động cập nhật bảng. Nếu bạn chọn hộp kiểm thứ ba, "Làm mới dữ liệu khi mở tệp", mỗi khi bạn mở bảng tính, Excel sẽ lấy dữ liệu web và cập nhật trang tính cho bạn Phần kết luậnWeb Query đơn giản hóa việc trích xuất dữ liệu web trong Excel, đặc biệt đối với các trang web có bảng. Nó cho phép bạn tự động hóa các tác vụ đơn giản và trích xuất dữ liệu web mà không cần tương tác hoặc tối thiểu. Web Query cũng cho phép bạn thu thập dữ liệu từ các trang web động bằng JavaScript. Để thuận tiện cho bạn, bạn cũng có thể truy cập hướng dẫn này trong kho lưu trữ GitHub của chúng tôi. Tuy nhiên, Truy vấn web không phù hợp để phát triển các công cụ quét web phức tạp tùy chỉnh, có khả năng tương tác với các phần tử web hoặc cho phép tích hợp proxy để thực hiện quét quy mô lớn. Trong những trường hợp như vậy, bạn có nhiều lựa chọn thay thế, chẳng hạn như phát triển trình quét web bằng Python, Javascript hoặc Go. Cuối cùng nhưng không kém phần quan trọng, bạn cũng có thể sử dụng tập lệnh VBA để tương tác với các trang web từ Excel; Thông tin về các Tác giả Iveta Vistorskyte Người quản lý nội dung chính Iveta Vistorskyte là Trưởng bộ phận quản lý nội dung tại Oxylabs. Lớn lên với tư cách là một nhà văn và một người tìm kiếm thử thách, cô quyết định chào đón mình đến với lĩnh vực công nghệ và ngay lập tức quan tâm đến lĩnh vực này. Khi cô ấy không đi làm, có lẽ bạn sẽ thấy cô ấy vừa thư giãn vừa nghe bản nhạc yêu thích hoặc chơi board game với bạn bè Tất cả thông tin trên Blog Oxylabs được cung cấp trên cơ sở "nguyên trạng" và chỉ dành cho mục đích thông tin. Chúng tôi không đại diện và từ chối mọi trách nhiệm liên quan đến việc bạn sử dụng bất kỳ thông tin nào có trên Oxylabs Blog hoặc bất kỳ trang web của bên thứ ba nào có thể được liên kết trong đó. Trước khi tham gia vào các hoạt động cạo dưới bất kỳ hình thức nào, bạn nên tham khảo ý kiến của cố vấn pháp lý của mình và đọc kỹ các điều khoản dịch vụ của trang web cụ thể hoặc nhận giấy phép cạo |