Trích xuất dữ liệu từ url sang excel

Các doanh nghiệp dựa vào internet để lấy tất cả các loại thông tin quan trọng—từ thông tin liên hệ, theo dõi vận chuyển, giá cả của đối thủ cạnh tranh, dữ liệu từ các cổng, v.v. Và mặc dù những tác vụ này có vẻ đơn giản nhưng việc tìm kiếm các trang web và cổng cũng như sao chép và dán thông tin vào Excel có thể nhanh chóng chiếm nhiều thời gian quý báu của bạn. Ngoài ra, việc nhập dữ liệu vào bảng tính theo cách thủ công rất dễ xảy ra lỗi do con người. Nhưng với tự động hóa quy trình bằng rô-bốt (RPA), bạn có thể hợp lý hóa các tác vụ lặp đi lặp lại này bằng cách thu thập dữ liệu tự động từ các trang web

Tính năng quét dữ liệu tự động thu thập dữ liệu trên nhiều nguồn và kéo dữ liệu đó vào một điểm—chẳng hạn như bảng tính Excel—để loại bỏ lỗi và giúp bạn có thời gian quay lại làm việc với các dự án quan trọng hơn. Đây chỉ là một số cách mà các công ty thực sự đang sử dụng quét dữ liệu tự động

  • Thu thập thông tin liên lạc từ một cổng thông tin trực tuyến
  • So sánh giá để phân tích cạnh tranh
  • Theo dõi giá bất động sản từ MLS
  • Kiểm tra dữ liệu cho các dự án máy học
  • Theo dõi lô hàng từ UPS, FedEx, v.v.
  • Và nhiều cái khác

Các bước để thu thập dữ liệu từ trang web sang Excel

Chữ

Có một số cách để cạo dữ liệu từ một trang web liên quan đến việc tạo các thuật toán lọc và xử lý tùy chỉnh cho từng trang web. Những điều này yêu cầu bạn viết các tập lệnh bổ sung hoặc tạo một công cụ riêng để tích hợp dữ liệu đã loại bỏ với phần còn lại của cơ sở hạ tầng CNTT của bạn. Nhưng với công cụ thu thập dữ liệu từ Automate, giải pháp RPA từ Fortra, bạn có thể dễ dàng lấy thông tin từ các trang web và đưa trực tiếp vào trang tính Excel để phân tích—tất cả mà không cần viết bất kỳ mã nào

Trong video bên dưới, bạn sẽ thấy bot Automate đang chạy một tác vụ nhập số theo dõi của UPS vào trang web của UPS, thực hiện quét dữ liệu tự động để nhận thông tin theo dõi giao hàng và nhập thông tin đó vào tệp Excel. Sau khi tác vụ chạy, nó tiếp tục hiển thị tác vụ đó được xây dựng như thế nào. Xem và sau đó tự mình thử với hướng dẫn từng bước hữu ích này

Phương tiện truyền thông

 

Chữ

Trong video ở trên, bạn sẽ thấy bot Automate đang chạy tác vụ nhập số theo dõi của UPS vào trang web của UPS, thực hiện quét dữ liệu tự động để nhận thông tin theo dõi giao hàng và nhập thông tin đó vào tệp Excel. Sau khi tác vụ chạy, nó tiếp tục hiển thị tác vụ đó được xây dựng như thế nào. Tất cả trừ bước 1 được hiển thị trong video

Bước 1. Tải xuống bản dùng thử Automate

Bước 2. Xây dựng nhiệm vụ bằng cách bắt đầu với các biến. (Nếu bạn cần kiến ​​thức cơ bản về cách xây dựng các tác vụ Automate, Automate Academy là một nơi tuyệt vời để học. )

Trong tác vụ này, bạn sẽ thêm các biến cho tên tệp, hàng, v.v. Lưu ý rằng trình tạo tác vụ này được kéo và thả, không cần viết mã

Bước 3. Mở sổ làm việc Excel để lấy số theo dõi. Bạn sẽ lưu trữ dữ liệu này dưới dạng tập dữ liệu để sử dụng sau này

Bước 4. Thêm một bước để tạo sổ làm việc báo cáo để ghi tập dữ liệu vào

Bước 5. Sử dụng sổ làm việc báo cáo với số theo dõi và tiêu đề cột trong hoạt động của trình duyệt web

Bước 6. Xác định những mẩu thông tin bạn cần. Điều này sẽ bao gồm việc cho bot Automate biết nơi tìm dữ liệu bạn muốn thu thập. Đặt vòng lặp này để duyệt qua tất cả các số theo dõi để thực hiện quét dữ liệu tự động từ trang web của UPS vào Excel

Bước 7. Đối với mỗi phần dữ liệu bạn muốn thu thập từ trang web, hãy ghi giá trị biến vào một ô trong sổ làm việc

Đây chỉ là một ví dụ về tự động hóa Excel. Có rất nhiều cách khác để Automate và Excel có thể phối hợp với nhau để loại bỏ công việc thủ công khỏi đĩa của bạn

Tải xuống Automate và tự mình dùng thử

Bắt đầu với Automate và xem cách các công cụ trích xuất dữ liệu của chúng tôi giữ cho dữ liệu quan trọng của bạn luôn di chuyển mà không cần thực hiện các tác vụ thủ công tẻ nhạt hoặc viết tập lệnh tùy chỉnh

Bạn có biết rằng Microsoft Excel có tính năng tích hợp sẵn để trích xuất dữ liệu từ trang web sang Excel bằng Truy vấn Web không? .   

Bài viết này bao gồm tất cả các cách có thể để trích xuất dữ liệu web công khai từ các trang web với sự trợ giúp của Truy vấn web.  

Cách quét web trong Excel hoạt động

Microsoft Web Query sử dụng Trình duyệt web của Hệ điều hành, thường là Internet Explorer trong Windows cũ hơn và Edge trong các phiên bản mới nhất, để tải trang web. Điều này cho phép Truy vấn web hiển thị các trang web nặng về JavaScript mà không gặp rắc rối. Khi trang web tải xong, Truy vấn web sẽ tự động phân tích cú pháp toàn bộ trang và tìm tất cả các bảng HTML tĩnh có liên quan. Nó sẽ làm nổi bật tất cả các bảng và làm cho chúng có thể lựa chọn. Sau khi người dùng chọn bảng mong muốn, Truy vấn web sẽ giúp trích xuất dữ liệu bảng.  

Cách cạo dữ liệu trang web bằng Web Query Excel

Bây giờ bạn đã học về Truy vấn web, hãy thử thu thập dữ liệu từ internet. Trong hướng dẫn này, bạn sẽ thấy một ví dụ về cách cạo "sách. để cạo. com", trích xuất thông tin của cuốn sách và lưu nó vào bảng tính Excel. Bạn cũng sẽ tìm hiểu và khám phá các tính năng Truy vấn web khác nhau trong quá trình thực hiện. Trước khi bắt đầu quá trình cạo, bạn cần đảm bảo rằng

  1. Bạn có kết nối internet đang hoạt động;

  2. Bạn đã cài đặt Microsoft Office để có thể sử dụng Microsoft Excel. Nếu chưa có Microsoft Office, bạn có thể tải về và cài đặt tại đây

Khi bạn đã cài đặt Microsoft Office, bạn có thể làm theo các bước sau

Bước 1. Mở một bảng tính trống

Bạn cần mở một bảng tính trống trong Microsoft Excel và nhấp vào "Dữ liệu" từ menu

Bước 2. Nhấp vào tùy chọn "Từ Web"

Sau khi nhấp vào "Dữ liệu", bạn sẽ thấy một menu mới với nhiều tùy chọn khác nhau để trích xuất dữ liệu. Chọn tùy chọn "Từ Web" và nhấp vào tùy chọn đó. Nó sẽ mở ra một cửa sổ mới

Bước 3. Nhập URL của trang web vào thanh địa chỉ và nhấp vào "Đi"

Bạn sẽ thấy một thanh địa chỉ trong cửa sổ "Truy vấn web mới". Trong hộp văn bản này, bạn cần nhập URL "https. //sách. để cạo. com" và nhấp vào "Đi. "

Bước 4. Điều hướng đến trang sách

Sau khi nhấp vào nút "Đi", bạn sẽ thấy một trang web trong trình duyệt web mini. Bạn có thể tương tác và duyệt trang web tại đây. Cuộn xuống và nhấp vào liên kết sách để mở trang sách

Bước 5. Chọn bảng mong muốn để cạo

Nếu bạn cuộn xuống một chút, bạn sẽ tìm thấy một bảng trên trang sách. Sẽ có một biểu tượng mũi tên nhỏ màu vàng mà bạn có thể nhấp vào. Nhấp vào nút sẽ chọn bảng được liên kết với nó. Khi bảng được chọn, nhấp vào nút "Nhập" bên dưới

Bước 6. Chọn tùy chọn "Bảng tính hiện có" và nhấp vào "OK"

Khi bạn nhấp vào nút "Nhập", một cửa sổ nhỏ sẽ xuất hiện, tương tự như ảnh chụp màn hình bên dưới. Đảm bảo tùy chọn "Existing worksheet" được chọn và nhấp vào "OK. "

Và đó là nó. Truy vấn web sẽ tạo một quy trình nền để chạy yêu cầu web và tìm nạp trang web. Sau khi lấy trang web sẽ phân tích cú pháp bảng và trích xuất dữ liệu vào các cột excel. Đầu ra sẽ tương tự như ví dụ dưới đây

đầu ra

Bạn có thể khớp nó với trang web và xác thực rằng tất cả dữ liệu từ bảng là chính xác

Tất cả các cột và hàng sẽ được liên kết với truy vấn web, vì vậy, bất cứ khi nào bạn làm mới dữ liệu theo cách thủ công hoặc tự động, Microsoft Excel sẽ biết những hàng hoặc cột nào cần cập nhật. Phần tiếp theo khám phá nhiều cách để làm mới và cập nhật dữ liệu.  

Cách cập nhật và làm mới dữ liệu

Chủ yếu có hai cơ chế làm mới khác nhau dành cho Truy vấn web.  

Ở chế độ tự động, Excel sẽ định kỳ kéo dữ liệu trong nền và giữ cho trang tính được cập nhật. Bạn cũng có thể tùy chỉnh thời lượng theo nhu cầu của mình – bạn sẽ tìm thấy lời giải thích sau trong bài viết này.  

Trước đó, hãy khám phá nhiều cách làm mới dữ liệu thủ công. Trước tiên, hãy xóa một vài mục khỏi dữ liệu được trích xuất để xác thực quá trình làm mới hoạt động như mong đợi

Lưu ý rằng chúng tôi đã loại bỏ giá, thuế và tình trạng còn hàng khỏi dữ liệu

lựa chọn 1. Nhấp vào "Làm mới" từ menu trên cùng

Trên menu trên cùng, bên dưới menu con "Dữ liệu", có một nút có tên "Làm mới. " Bạn có thể lấy dữ liệu mới nhất bằng cách nhấp vào nút này hoặc chọn phím tắt trên bàn phím – tổ hợp nút "CTRL + ALT + F5". Sau khi bạn lấy dữ liệu mới nhất, các giá trị còn thiếu về giá, thuế và tình trạng còn hàng sẽ được làm mới với thông tin mới nhất

Lựa chọn 2. Làm mới từ menu ngữ cảnh

Hãy xóa lại một số trường để thử nghiệm một cách làm mới dữ liệu khác. Lần này, chúng tôi sẽ sử dụng nút "Làm mới" của menu ngữ cảnh thay vì nút menu. Trước tiên, bạn cần nhấp chuột phải vào một ô và chọn "Làm mới. " Lưu ý rằng bạn sẽ phải bấm vào các ô do Truy vấn web quản lý. Nếu bạn bấm vào các ô khác, nút "Làm mới" này sẽ không xuất hiện

Tùy chọn 3. Chỉnh sửa và chạy lại Truy vấn

Bây giờ, chúng tôi sẽ xóa một số trường và sau đó thử một phương pháp khác để cập nhật dữ liệu. Sau khi xóa một số dữ liệu, nhấp chuột phải vào ô và bạn sẽ thấy tùy chọn "Chỉnh sửa truy vấn. " Nhấn vào nó

Nó sẽ mở ra một cửa sổ mới có tên "Chỉnh sửa truy vấn web. " Nếu bạn nhấp vào "Nhập", truy vấn web sẽ chạy quy trình nền để tìm nạp các bản cập nhật mới nhất từ ​​trang web và làm mới dữ liệu hiện có, thay thế dữ liệu lỗi thời bằng thông tin mới

Phương pháp này hữu ích nếu bạn muốn cập nhật trình cạp, e. g. , thay đổi URL của trang web, cập nhật truy vấn để tìm nạp một bảng hoặc trang khác, v.v.

Bây giờ, hãy cùng tìm hiểu cách tự động hóa quá trình làm mới/cập nhật

Định cấu hình làm mới tự động từ thuộc tính

Các bước cấu hình quá trình làm mới tự động từ các thuộc tính khá đơn giản. Đầu tiên, mở lại menu ngữ cảnh bằng cách nhấp chuột phải vào ô được liên kết với Truy vấn web. Từ menu, chọn "Thuộc tính phạm vi dữ liệu. "

Điều này sẽ mở ra cửa sổ "External Data Range Properties", tương tự như ví dụ bên dưới

Trong cửa sổ này, hãy tìm phần "Làm mới điều khiển". Bằng cách tùy chỉnh phần này, bạn có thể tự động làm mới dữ liệu. Hãy tiếp tục và nhấp vào hộp kiểm "Bật làm mới nền". Sau đó, bằng cách sử dụng hộp kiểm thứ hai, bạn có thể yêu cầu Excel làm mới dữ liệu định kỳ. Ví dụ: nếu bạn đặt nó làm mới 5 phút một lần, Excel sẽ tự động lấy dữ liệu cứ sau 5 phút bằng một quy trình nền và tự động cập nhật bảng.  

Nếu bạn chọn hộp kiểm thứ ba, "Làm mới dữ liệu khi mở tệp", mỗi khi bạn mở bảng tính, Excel sẽ lấy dữ liệu web và cập nhật trang tính cho bạn

Phần kết luận

Web Query đơn giản hóa việc trích xuất dữ liệu web trong Excel, đặc biệt đối với các trang web có bảng. Nó cho phép bạn tự động hóa các tác vụ đơn giản và trích xuất dữ liệu web mà không cần tương tác hoặc tối thiểu. Web Query cũng cho phép bạn thu thập dữ liệu từ các trang web động bằng JavaScript. Để thuận tiện cho bạn, bạn cũng có thể truy cập hướng dẫn này trong kho lưu trữ GitHub của chúng tôi.  

Tuy nhiên, Truy vấn web không phù hợp để phát triển các công cụ quét web phức tạp tùy chỉnh, có khả năng tương tác với các phần tử web hoặc cho phép tích hợp proxy để thực hiện quét quy mô lớn. Trong những trường hợp như vậy, bạn có nhiều lựa chọn thay thế, chẳng hạn như phát triển trình quét web bằng Python, Javascript hoặc Go. Cuối cùng nhưng không kém phần quan trọng, bạn cũng có thể sử dụng tập lệnh VBA để tương tác với các trang web từ Excel;

Thông tin về các Tác giả

Iveta Vistorskyte

Người quản lý nội dung chính

Iveta Vistorskyte là Trưởng bộ phận quản lý nội dung tại Oxylabs. Lớn lên với tư cách là một nhà văn và một người tìm kiếm thử thách, cô quyết định chào đón mình đến với lĩnh vực công nghệ và ngay lập tức quan tâm đến lĩnh vực này. Khi cô ấy không đi làm, có lẽ bạn sẽ thấy cô ấy vừa thư giãn vừa nghe bản nhạc yêu thích hoặc chơi board game với bạn bè

Tất cả thông tin trên Blog Oxylabs được cung cấp trên cơ sở "nguyên trạng" và chỉ dành cho mục đích thông tin. Chúng tôi không đại diện và từ chối mọi trách nhiệm liên quan đến việc bạn sử dụng bất kỳ thông tin nào có trên Oxylabs Blog hoặc bất kỳ trang web của bên thứ ba nào có thể được liên kết trong đó. Trước khi tham gia vào các hoạt động cạo dưới bất kỳ hình thức nào, bạn nên tham khảo ý kiến ​​​​của cố vấn pháp lý của mình và đọc kỹ các điều khoản dịch vụ của trang web cụ thể hoặc nhận giấy phép cạo

Excel có thể tự động lấy dữ liệu từ một trang web không?

Ngoại trừ việc chuyển đổi dữ liệu từ một trang web theo cách thủ công bằng cách sao chép và dán, Truy vấn Web Excel được sử dụng để nhanh chóng truy xuất dữ liệu từ một trang web chuẩn vào một trang tính Excel. It can automatically detect tables embedded in the web page's HTML.

Làm cách nào để trích xuất dữ liệu từ trang web sang Excel bằng power automate?

Mô tả .
Điều hướng đến trang CVR. Nhấp vào nút 'Tiếng Anh' ở góc trên bên phải. .
Đối với mỗi CVR, hãy tìm kiếm trang CVR
Quét kết quả bằng Trích xuất dữ liệu từ trang web
Viết lại kết quả vào đúng cột
Đóng trình duyệt
Đóng sách Excel

Bạn có thể kéo dữ liệu API vào Excel không?

Về cơ bản, bạn có ba tùy chọn để liên kết API với Excel. Truy vấn nguồn. Bạn có thể truy vấn dữ liệu từ các API bằng công cụ tích hợp sẵn của Excel . khớp nối. io. Nhà nhập khẩu bên thứ ba này sẽ cho phép bạn tự động xuất dữ liệu qua API sang Excel theo lịch trình tùy chỉnh. VBA. Đây là một tùy chọn dựa trên mã phù hợp với người dùng Excel am hiểu công nghệ.