Các doanh nghiệp dựa vào internet để lấy tất cả các loại thông tin quan trọng—từ thông tin liên hệ, theo dõi vận chuyển, giá cả của đối thủ cạnh tranh, dữ liệu từ các cổng, v.v. Và mặc dù những tác vụ này có vẻ đơn giản nhưng việc tìm kiếm các trang web và cổng cũng như sao chép và dán thông tin vào Excel có thể nhanh chóng chiếm nhiều thời gian quý báu của bạn. Ngoài ra, việc nhập dữ liệu vào bảng tính theo cách thủ công rất dễ xảy ra lỗi do con người. Nhưng với tự động hóa quy trình bằng rô-bốt [RPA], bạn có thể hợp lý hóa các tác vụ lặp đi lặp lại này bằng cách thu thập dữ liệu tự động từ các trang web
Tính năng quét dữ liệu tự động thu thập dữ liệu trên nhiều nguồn và kéo dữ liệu đó vào một điểm—chẳng hạn như bảng tính Excel—để loại bỏ lỗi và giúp bạn có thời gian quay lại làm việc với các dự án quan trọng hơn. Đây chỉ là một số cách mà các công ty thực sự đang sử dụng quét dữ liệu tự động
- Thu thập thông tin liên lạc từ một cổng thông tin trực tuyến
- So sánh giá để phân tích cạnh tranh
- Theo dõi giá bất động sản từ MLS
- Kiểm tra dữ liệu cho các dự án máy học
- Theo dõi lô hàng từ UPS, FedEx, v.v.
- Và nhiều cái khác
Các bước để thu thập dữ liệu từ trang web sang Excel
Chữ
Có một số cách để cạo dữ liệu từ một trang web liên quan đến việc tạo các thuật toán lọc và xử lý tùy chỉnh cho từng trang web. Những điều này yêu cầu bạn viết các tập lệnh bổ sung hoặc tạo một công cụ riêng để tích hợp dữ liệu đã loại bỏ với phần còn lại của cơ sở hạ tầng CNTT của bạn. Nhưng với công cụ thu thập dữ liệu từ Automate, giải pháp RPA từ Fortra, bạn có thể dễ dàng lấy thông tin từ các trang web và đưa trực tiếp vào trang tính Excel để phân tích—tất cả mà không cần viết bất kỳ mã nào
Trong video bên dưới, bạn sẽ thấy bot Automate đang chạy một tác vụ nhập số theo dõi của UPS vào trang web của UPS, thực hiện quét dữ liệu tự động để nhận thông tin theo dõi giao hàng và nhập thông tin đó vào tệp Excel. Sau khi tác vụ chạy, nó tiếp tục hiển thị tác vụ đó được xây dựng như thế nào. Xem và sau đó tự mình thử với hướng dẫn từng bước hữu ích này
Phương tiện truyền thông
Chữ
Trong video ở trên, bạn sẽ thấy bot Automate đang chạy tác vụ nhập số theo dõi của UPS vào trang web của UPS, thực hiện quét dữ liệu tự động để nhận thông tin theo dõi giao hàng và nhập thông tin đó vào tệp Excel. Sau khi tác vụ chạy, nó tiếp tục hiển thị tác vụ đó được xây dựng như thế nào. Tất cả trừ bước 1 được hiển thị trong video
Bước 1. Tải xuống bản dùng thử Automate
Bước 2. Xây dựng nhiệm vụ bằng cách bắt đầu với các biến. [Nếu bạn cần kiến thức cơ bản về cách xây dựng các tác vụ Automate, Automate Academy là một nơi tuyệt vời để học. ]
Trong tác vụ này, bạn sẽ thêm các biến cho tên tệp, hàng, v.v. Lưu ý rằng trình tạo tác vụ này được kéo và thả, không cần viết mã
Bước 3. Mở sổ làm việc Excel để lấy số theo dõi. Bạn sẽ lưu trữ dữ liệu này dưới dạng tập dữ liệu để sử dụng sau này
Bước 4. Thêm một bước để tạo sổ làm việc báo cáo để ghi tập dữ liệu vào
Bước 5. Sử dụng sổ làm việc báo cáo với số theo dõi và tiêu đề cột trong hoạt động của trình duyệt web
Bước 6. Xác định những mẩu thông tin bạn cần. Điều này sẽ bao gồm việc cho bot Automate biết nơi tìm dữ liệu bạn muốn thu thập. Đặt vòng lặp này để duyệt qua tất cả các số theo dõi để thực hiện quét dữ liệu tự động từ trang web của UPS vào Excel
Bước 7. Đối với mỗi phần dữ liệu bạn muốn thu thập từ trang web, hãy ghi giá trị biến vào một ô trong sổ làm việc
Đây chỉ là một ví dụ về tự động hóa Excel. Có rất nhiều cách khác để Automate và Excel có thể phối hợp với nhau để loại bỏ công việc thủ công khỏi đĩa của bạn
Tải xuống Automate và tự mình dùng thử
Bắt đầu với Automate và xem cách các công cụ trích xuất dữ liệu của chúng tôi giữ cho dữ liệu quan trọng của bạn luôn di chuyển mà không cần thực hiện các tác vụ thủ công tẻ nhạt hoặc viết tập lệnh tùy chỉnh
Bạn có biết rằng Microsoft Excel có tính năng tích hợp sẵn để trích xuất dữ liệu từ trang web sang Excel bằng Truy vấn Web không? .
Bài viết này bao gồm tất cả các cách có thể để trích xuất dữ liệu web công khai từ các trang web với sự trợ giúp của Truy vấn web.
Cách quét web trong Excel hoạt động
Microsoft Web Query sử dụng Trình duyệt web của Hệ điều hành, thường là Internet Explorer trong Windows cũ hơn và Edge trong các phiên bản mới nhất, để tải trang web. Điều này cho phép Truy vấn web hiển thị các trang web nặng về JavaScript mà không gặp rắc rối. Khi trang web tải xong, Truy vấn web sẽ tự động phân tích cú pháp toàn bộ trang và tìm tất cả các bảng HTML tĩnh có liên quan. Nó sẽ làm nổi bật tất cả các bảng và làm cho chúng có thể lựa chọn. Sau khi người dùng chọn bảng mong muốn, Truy vấn web sẽ giúp trích xuất dữ liệu bảng.
Cách cạo dữ liệu trang web bằng Web Query Excel
Bây giờ bạn đã học về Truy vấn web, hãy thử thu thập dữ liệu từ internet. Trong hướng dẫn này, bạn sẽ thấy một ví dụ về cách cạo "sách. để cạo. com", trích xuất thông tin của cuốn sách và lưu nó vào bảng tính Excel. Bạn cũng sẽ tìm hiểu và khám phá các tính năng Truy vấn web khác nhau trong quá trình thực hiện. Trước khi bắt đầu quá trình cạo, bạn cần đảm bảo rằng
Bạn có kết nối internet đang hoạt động;
Bạn đã cài đặt Microsoft Office để có thể sử dụng Microsoft Excel. Nếu chưa có Microsoft Office, bạn có thể tải về và cài đặt tại đây
Khi bạn đã cài đặt Microsoft Office, bạn có thể làm theo các bước sau
Bước 1. Mở một bảng tính trống
Bạn cần mở một bảng tính trống trong Microsoft Excel và nhấp vào "Dữ liệu" từ menu
Bước 2. Nhấp vào tùy chọn "Từ Web"
Sau khi nhấp vào "Dữ liệu", bạn sẽ thấy một menu mới với nhiều tùy chọn khác nhau để trích xuất dữ liệu. Chọn tùy chọn "Từ Web" và nhấp vào tùy chọn đó. Nó sẽ mở ra một cửa sổ mới
Bước 3. Nhập URL của trang web vào thanh địa chỉ và nhấp vào "Đi"
Bạn sẽ thấy một thanh địa chỉ trong cửa sổ "Truy vấn web mới". Trong hộp văn bản này, bạn cần nhập URL "https. //sách. để cạo. com" và nhấp vào "Đi. "
Bước 4. Điều hướng đến trang sách
Sau khi nhấp vào nút "Đi", bạn sẽ thấy một trang web trong trình duyệt web mini. Bạn có thể tương tác và duyệt trang web tại đây. Cuộn xuống và nhấp vào liên kết sách để mở trang sách
Bước 5. Chọn bảng mong muốn để cạo
Nếu bạn cuộn xuống một chút, bạn sẽ tìm thấy một bảng trên trang sách. Sẽ có một biểu tượng mũi tên nhỏ màu vàng mà bạn có thể nhấp vào. Nhấp vào nút sẽ chọn bảng được liên kết với nó. Khi bảng được chọn, nhấp vào nút "Nhập" bên dưới
Bước 6. Chọn tùy chọn "Bảng tính hiện có" và nhấp vào "OK"
Khi bạn nhấp vào nút "Nhập", một cửa sổ nhỏ sẽ xuất hiện, tương tự như ảnh chụp màn hình bên dưới. Đảm bảo tùy chọn "Existing worksheet" được chọn và nhấp vào "OK. "
Và đó là nó. Truy vấn web sẽ tạo một quy trình nền để chạy yêu cầu web và tìm nạp trang web. Sau khi lấy trang web sẽ phân tích cú pháp bảng và trích xuất dữ liệu vào các cột excel. Đầu ra sẽ tương tự như ví dụ dưới đây
đầu ra
Bạn có thể khớp nó với trang web và xác thực rằng tất cả dữ liệu từ bảng là chính xác
Tất cả các cột và hàng sẽ được liên kết với truy vấn web, vì vậy, bất cứ khi nào bạn làm mới dữ liệu theo cách thủ công hoặc tự động, Microsoft Excel sẽ biết những hàng hoặc cột nào cần cập nhật. Phần tiếp theo khám phá nhiều cách để làm mới và cập nhật dữ liệu.
Cách cập nhật và làm mới dữ liệu
Chủ yếu có hai cơ chế làm mới khác nhau dành cho Truy vấn web.
Ở chế độ tự động, Excel sẽ định kỳ kéo dữ liệu trong nền và giữ cho trang tính được cập nhật. Bạn cũng có thể tùy chỉnh thời lượng theo nhu cầu của mình – bạn sẽ tìm thấy lời giải thích sau trong bài viết này.
Trước đó, hãy khám phá nhiều cách làm mới dữ liệu thủ công. Trước tiên, hãy xóa một vài mục khỏi dữ liệu được trích xuất để xác thực quá trình làm mới hoạt động như mong đợi
Lưu ý rằng chúng tôi đã loại bỏ giá, thuế và tình trạng còn hàng khỏi dữ liệu
lựa chọn 1. Nhấp vào "Làm mới" từ menu trên cùng
Trên menu trên cùng, bên dưới menu con "Dữ liệu", có một nút có tên "Làm mới. " Bạn có thể lấy dữ liệu mới nhất bằng cách nhấp vào nút này hoặc chọn phím tắt trên bàn phím – tổ hợp nút "CTRL + ALT + F5". Sau khi bạn lấy dữ liệu mới nhất, các giá trị còn thiếu về giá, thuế và tình trạng còn hàng sẽ được làm mới với thông tin mới nhất
Lựa chọn 2. Làm mới từ menu ngữ cảnh
Hãy xóa lại một số trường để thử nghiệm một cách làm mới dữ liệu khác. Lần này, chúng tôi sẽ sử dụng nút "Làm mới" của menu ngữ cảnh thay vì nút menu. Trước tiên, bạn cần nhấp chuột phải vào một ô và chọn "Làm mới. " Lưu ý rằng bạn sẽ phải bấm vào các ô do Truy vấn web quản lý. Nếu bạn bấm vào các ô khác, nút "Làm mới" này sẽ không xuất hiện
Tùy chọn 3. Chỉnh sửa và chạy lại Truy vấn
Bây giờ, chúng tôi sẽ xóa một số trường và sau đó thử một phương pháp khác để cập nhật dữ liệu. Sau khi xóa một số dữ liệu, nhấp chuột phải vào ô và bạn sẽ thấy tùy chọn "Chỉnh sửa truy vấn. " Nhấn vào nó
Nó sẽ mở ra một cửa sổ mới có tên "Chỉnh sửa truy vấn web. " Nếu bạn nhấp vào "Nhập", truy vấn web sẽ chạy quy trình nền để tìm nạp các bản cập nhật mới nhất từ trang web và làm mới dữ liệu hiện có, thay thế dữ liệu lỗi thời bằng thông tin mới
Phương pháp này hữu ích nếu bạn muốn cập nhật trình cạp, e. g. , thay đổi URL của trang web, cập nhật truy vấn để tìm nạp một bảng hoặc trang khác, v.v.
Bây giờ, hãy cùng tìm hiểu cách tự động hóa quá trình làm mới/cập nhật
Định cấu hình làm mới tự động từ thuộc tính
Các bước cấu hình quá trình làm mới tự động từ các thuộc tính khá đơn giản. Đầu tiên, mở lại menu ngữ cảnh bằng cách nhấp chuột phải vào ô được liên kết với Truy vấn web. Từ menu, chọn "Thuộc tính phạm vi dữ liệu. "
Điều này sẽ mở ra cửa sổ "External Data Range Properties", tương tự như ví dụ bên dưới
Trong cửa sổ này, hãy tìm phần "Làm mới điều khiển". Bằng cách tùy chỉnh phần này, bạn có thể tự động làm mới dữ liệu. Hãy tiếp tục và nhấp vào hộp kiểm "Bật làm mới nền". Sau đó, bằng cách sử dụng hộp kiểm thứ hai, bạn có thể yêu cầu Excel làm mới dữ liệu định kỳ. Ví dụ: nếu bạn đặt nó làm mới 5 phút một lần, Excel sẽ tự động lấy dữ liệu cứ sau 5 phút bằng một quy trình nền và tự động cập nhật bảng.
Nếu bạn chọn hộp kiểm thứ ba, "Làm mới dữ liệu khi mở tệp", mỗi khi bạn mở bảng tính, Excel sẽ lấy dữ liệu web và cập nhật trang tính cho bạn
Phần kết luận
Web Query đơn giản hóa việc trích xuất dữ liệu web trong Excel, đặc biệt đối với các trang web có bảng. Nó cho phép bạn tự động hóa các tác vụ đơn giản và trích xuất dữ liệu web mà không cần tương tác hoặc tối thiểu. Web Query cũng cho phép bạn thu thập dữ liệu từ các trang web động bằng JavaScript. Để thuận tiện cho bạn, bạn cũng có thể truy cập hướng dẫn này trong kho lưu trữ GitHub của chúng tôi.
Tuy nhiên, Truy vấn web không phù hợp để phát triển các công cụ quét web phức tạp tùy chỉnh, có khả năng tương tác với các phần tử web hoặc cho phép tích hợp proxy để thực hiện quét quy mô lớn. Trong những trường hợp như vậy, bạn có nhiều lựa chọn thay thế, chẳng hạn như phát triển trình quét web bằng Python, Javascript hoặc Go. Cuối cùng nhưng không kém phần quan trọng, bạn cũng có thể sử dụng tập lệnh VBA để tương tác với các trang web từ Excel;
Thông tin về các Tác giả Iveta Vistorskyte Người quản lý nội dung chính Iveta Vistorskyte là Trưởng bộ phận quản lý nội dung tại Oxylabs. Lớn lên với tư cách là một nhà văn và một người tìm kiếm thử thách, cô quyết định chào đón mình đến với lĩnh vực công nghệ và ngay lập tức quan tâm đến lĩnh vực này. Khi cô ấy không đi làm, có lẽ bạn sẽ thấy cô ấy vừa thư giãn vừa nghe bản nhạc yêu thích hoặc chơi board game với bạn bè Tất cả thông tin trên Blog Oxylabs được cung cấp trên cơ sở "nguyên trạng" và chỉ dành cho mục đích thông tin. Chúng tôi không đại diện và từ chối mọi trách nhiệm liên quan đến việc bạn sử dụng bất kỳ thông tin nào có trên Oxylabs Blog hoặc bất kỳ trang web của bên thứ ba nào có thể được liên kết trong đó. Trước khi tham gia vào các hoạt động cạo dưới bất kỳ hình thức nào, bạn nên tham khảo ý kiến của cố vấn pháp lý của mình và đọc kỹ các điều khoản dịch vụ của trang web cụ thể hoặc nhận giấy phép cạoExcel có thể tự động lấy dữ liệu từ một trang web không?
Làm cách nào để trích xuất dữ liệu từ trang web sang Excel bằng power automate?
Bạn có thể kéo dữ liệu API vào Excel không?