Quét web HTML là gì?

Question

Quét web là quá trình thu thập và phân tích dữ liệu thô từ Web và cộng đồng Python đã đưa ra một số công cụ quét web khá mạnh mẽ

Nội dung chính Show

Cạo và phân tích văn bản từ các trang web
Xây dựng công cụ quét web đầu tiên của bạn
Trích xuất văn bản từ HTML bằng các phương thức chuỗi
Làm quen với biểu thức chính quy
Trích xuất văn bản từ HTML bằng biểu thức chính quy
Kiểm tra việc hiểu của bạn
Sử dụng Trình phân tích cú pháp HTML để quét web bằng Python
Cài Đặt Súp Đẹp
Tạo đối tượng >>> page = urlopen(url) 18
Sử dụng đối tượng >>> page = urlopen(url) 18
Kiểm tra việc hiểu của bạn
Tương tác với các biểu mẫu HTML
Cài đặt MechanicalSoup
Tạo đối tượng >>> page = urlopen(url) 89
Gửi biểu mẫu với MechanicalSoup
Kiểm tra việc hiểu của bạn
Tương tác với các trang web trong thời gian thực
Phần kết luận
Tài nguyên bổ sung
web cạo với ví dụ là gì?
Mục đích của cạo là gì?
Kỹ thuật cạo web là gì?

Internet có lẽ là nguồn thông tin lớn nhất trên hành tinh. Nhiều ngành, chẳng hạn như khoa học dữ liệu, kinh doanh thông minh và báo cáo điều tra, có thể hưởng lợi rất nhiều từ việc thu thập và phân tích dữ liệu từ các trang web

Trong hướng dẫn này, bạn sẽ học cách

Phân tích dữ liệu trang web bằng các phương thức chuỗi và biểu thức chính quy
Phân tích dữ liệu trang web bằng trình phân tích cú pháp HTML
Tương tác với các biểu mẫu và các thành phần trang web khác

Ghi chú. Hướng dẫn này được chuyển thể từ chương “Tương tác với Web” trong Python Basics. Giới thiệu thực tế về Python 3

Cuốn sách sử dụng trình soạn thảo IDLE tích hợp sẵn của Python để tạo và chỉnh sửa các tệp Python cũng như tương tác với trình bao Python, vì vậy, thỉnh thoảng bạn sẽ thấy các tham chiếu đến IDLE trong suốt hướng dẫn này. Tuy nhiên, bạn sẽ không gặp vấn đề gì khi chạy mã ví dụ từ trình chỉnh sửa và môi trường bạn chọn

Mã nguồn. Nhấp vào đây để tải xuống mã nguồn miễn phí mà bạn sẽ sử dụng để thu thập và phân tích dữ liệu từ Web

Cạo và phân tích văn bản từ các trang web

Thu thập dữ liệu từ các trang web bằng quy trình tự động được gọi là quét web. Một số trang web nghiêm cấm người dùng lấy dữ liệu của họ bằng các công cụ tự động như những công cụ mà bạn sẽ tạo trong hướng dẫn này. Trang web làm điều này vì hai lý do có thể

Trang web có lý do chính đáng để bảo vệ dữ liệu của mình. Chẳng hạn, Google Maps không cho phép bạn yêu cầu quá nhiều kết quả quá nhanh
Thực hiện nhiều yêu cầu lặp lại đối với máy chủ của trang web có thể sử dụng hết băng thông, làm chậm trang web đối với những người dùng khác và có khả năng làm quá tải máy chủ khiến trang web ngừng phản hồi hoàn toàn

Trước khi sử dụng các kỹ năng Python của bạn để quét web, bạn phải luôn kiểm tra chính sách sử dụng được chấp nhận của trang web mục tiêu của mình để xem việc truy cập trang web bằng các công cụ tự động có vi phạm điều khoản sử dụng của trang web hay không. Về mặt pháp lý, việc tìm kiếm trang web trái với mong muốn của một trang web là một khu vực màu xám

Quan trọng. Xin lưu ý rằng các kỹ thuật sau đây có thể là bất hợp pháp khi được sử dụng trên các trang web cấm quét web

Đối với hướng dẫn này, bạn sẽ sử dụng một trang được lưu trữ trên máy chủ của Real Python. Trang mà bạn sẽ truy cập đã được thiết lập để sử dụng với hướng dẫn này

Bây giờ bạn đã đọc tuyên bố từ chối trách nhiệm, bạn có thể xem nội dung thú vị. Trong phần tiếp theo, bạn sẽ bắt đầu lấy tất cả mã HTML từ một trang web

Loại bỏ các quảng cáo

Xây dựng công cụ quét web đầu tiên của bạn

Một gói hữu ích để quét web mà bạn có thể tìm thấy trong thư viện chuẩn của Python là

>>> title_index = html.find(""</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>6, chứa các công cụ để làm việc với URL. Đặc biệt, mô-đun <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>7 chứa một chức năng có tên là <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>8 mà bạn có thể sử dụng để mở một URL trong chương trình</p><p>Trong cửa sổ tương tác của IDLE, hãy nhập nội dung sau để nhập <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>8</p><p><span>>>></span> <pre><code><span>>>> </span><span>from</span> <span>urllib.request</span> <span>import</span> <span>urlopen</span>
</code></pre></p><p>Trang web mà bạn sẽ mở nằm ở URL sau</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre></p><p>Để mở trang web, chuyển <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>0 đến <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>8</p><p><span>>>></span> <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre></p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>8 trả về một đối tượng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>3</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>1</p><p>Để trích xuất HTML từ trang, trước tiên hãy sử dụng phương thức <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>5 của đối tượng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>3, phương thức này trả về một chuỗi byte. Sau đó, sử dụng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>6 để giải mã các byte thành chuỗi bằng UTF-8</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>5</p><p>Bây giờ bạn có thể in HTML để xem nội dung của trang web</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>6</p><p>Đầu ra mà bạn đang thấy là mã HTML của trang web mà trình duyệt của bạn hiển thị khi bạn truy cập <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>7</p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://ap.cdnki.com/r_quet-web-html-la-gi---373e9d5dd1fcd30d109452f52b76fef0.webp"></img></div><p>Với <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>6, bạn đã truy cập trang web tương tự như cách bạn làm trong trình duyệt của mình. Tuy nhiên, thay vì hiển thị nội dung một cách trực quan, bạn đã lấy mã nguồn dưới dạng văn bản. Bây giờ bạn đã có HTML dưới dạng văn bản, bạn có thể trích xuất thông tin từ nó theo một số cách khác nhau</p></section><section><h3 id="trich-xuat-van-ban-tu-html-bang-cac-phuong-thuc-chuoi">Trích xuất văn bản từ HTML bằng các phương thức chuỗi</h3><p>Một cách để trích xuất thông tin từ HTML của trang web là sử dụng các phương thức chuỗi. Chẳng hạn, bạn có thể sử dụng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>9 để tìm kiếm trong văn bản HTML cho các thẻ <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>00 và trích xuất tiêu đề của trang web</p><p>Để bắt đầu, bạn sẽ trích xuất tiêu đề của trang web mà bạn đã yêu cầu trong ví dụ trước. Nếu bạn biết chỉ mục của ký tự đầu tiên của tiêu đề và chỉ mục của ký tự đầu tiên của thẻ đóng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>01, thì bạn có thể sử dụng một lát cắt chuỗi để trích xuất tiêu đề</p><p>Bởi vì <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>9 trả về chỉ mục của lần xuất hiện đầu tiên của một chuỗi con, nên bạn có thể lấy chỉ mục của thẻ mở đầu <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>00 bằng cách chuyển chuỗi <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>04 tới <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>9</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre></p><p>Tuy nhiên, bạn không muốn chỉ mục của thẻ <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>00. Bạn muốn chỉ mục của chính tiêu đề. Để lấy chỉ mục của chữ cái đầu tiên trong tiêu đề, bạn có thể thêm độ dài của chuỗi <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>04 vào <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>08</p><p><span>>>></span> <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre></p><p>Bây giờ hãy lấy chỉ mục của thẻ đóng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>01 bằng cách chuyển chuỗi <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>20 đến <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>9</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>0</p><p>Cuối cùng, bạn có thể trích xuất tiêu đề bằng cách cắt chuỗi <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>22</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>2</p><p>HTML trong thế giới thực có thể phức tạp hơn nhiều và khó dự đoán hơn nhiều so với HTML trên trang hồ sơ Aphrodite. Đây là một trang hồ sơ khác với một số HTML lộn xộn hơn mà bạn có thể cạo</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>0</p><p>Hãy thử trích xuất tiêu đề từ URL mới này bằng phương pháp tương tự như trong ví dụ trước</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>1</p><p>Rất tiếc. Có một chút HTML trộn lẫn với tiêu đề. Tại sao vậy?</p><p>HTML cho trang <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>23 trông tương tự như trang <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>24, nhưng có một sự khác biệt nhỏ. Thẻ mở đầu <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>00 có thêm một khoảng trống trước dấu ngoặc nhọn đóng (<pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>26), hiển thị nó thành <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>27</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>28 trả về <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>29 vì chuỗi con chính xác <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>04 không tồn tại. Khi <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>29 được thêm vào <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>02, tức là <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>03, biến <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>04 được gán giá trị <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>05</p><p>Ký tự tại chỉ mục <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>05 của chuỗi <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>22 là ký tự xuống dòng (<pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>08) ngay trước dấu ngoặc nhọn mở (<pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>09) của thẻ <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>10. Điều này có nghĩa là <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>11 trả về tất cả HTML bắt đầu bằng dòng mới đó và kết thúc ngay trước thẻ <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>01</p><p>Những loại vấn đề này có thể xảy ra theo vô số cách không thể đoán trước. Bạn cần một cách đáng tin cậy hơn để trích xuất văn bản từ HTML</p><p><p></p>Loại bỏ các quảng cáo</p></section><section><h3 id="lam-quen-voi-bieu-thuc-chinh-quy">Làm quen với biểu thức chính quy</h3><p>Cụm từ thông dụng—hay gọi tắt là biểu thức chính quy—là các mẫu mà bạn có thể sử dụng để tìm kiếm văn bản trong một chuỗi. Python hỗ trợ các biểu thức chính quy thông qua mô-đun <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>13 của thư viện chuẩn</p><p><p>Ghi chú. Biểu thức chính quy không dành riêng cho Python. Chúng là một khái niệm lập trình chung và được hỗ trợ trong nhiều ngôn ngữ lập trình</p><p>Để làm việc với các biểu thức chính quy, điều đầu tiên bạn cần làm là nhập mô-đun <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>13</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>2</p><p>Biểu thức chính quy sử dụng các ký tự đặc biệt được gọi là siêu ký tự để biểu thị các mẫu khác nhau. Chẳng hạn, ký tự dấu hoa thị (_______515) là viết tắt của 0 hoặc nhiều trường hợp của bất kỳ thứ gì xuất hiện ngay trước dấu hoa thị</p><p>Trong ví dụ sau, bạn sử dụng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>16 để tìm bất kỳ văn bản nào trong một chuỗi khớp với một biểu thức chính quy đã cho</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>3</p><p>Đối số đầu tiên của <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>17 là biểu thức chính quy mà bạn muốn đối sánh và đối số thứ hai là chuỗi cần kiểm tra. Trong ví dụ trên, bạn tìm kiếm mẫu <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>18 trong chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>19</p><p>Biểu thức chính quy <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>18 khớp với bất kỳ phần nào của chuỗi bắt đầu bằng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>21, kết thúc bằng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>22 và không có hoặc nhiều phiên bản của <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>23 giữa hai. <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>17 trả về danh sách tất cả các trận đấu. Chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>19 khớp với mẫu này, vì vậy nó được trả về trong danh sách</p><p>Đây là cùng một mẫu được áp dụng cho các chuỗi khác nhau</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>4</p><p>Lưu ý rằng nếu không tìm thấy kết quả khớp, thì <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>16 sẽ trả về một danh sách trống</p><p>Khớp mẫu có phân biệt chữ hoa chữ thường. Nếu bạn muốn khớp mẫu này bất kể trường hợp nào, thì bạn có thể chuyển đối số thứ ba có giá trị <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>27</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>5</p><p>Bạn có thể sử dụng dấu chấm (<pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>28) để thay thế cho bất kỳ ký tự đơn lẻ nào trong biểu thức chính quy. Chẳng hạn, bạn có thể tìm thấy tất cả các chuỗi chứa các chữ cái <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>21 và <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>22 được phân tách bằng một ký tự như sau</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>6</p><p>Mẫu <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>31 bên trong một biểu thức chính quy là viết tắt của bất kỳ ký tự nào được lặp lại nhiều lần. Chẳng hạn, bạn có thể sử dụng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>32 để tìm mọi chuỗi con bắt đầu bằng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>21 và kết thúc bằng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>22, bất kể chữ cái—hoặc các chữ cái—ở giữa</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>7</p><p>Thông thường, bạn sử dụng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>35 để tìm kiếm một mẫu cụ thể bên trong một chuỗi. Hàm này hơi phức tạp hơn <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>17 vì nó trả về một đối tượng có tên là <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>37 lưu trữ các nhóm dữ liệu khác nhau. Điều này là do có thể có các kết quả khớp bên trong các kết quả khớp khác và <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>35 trả về mọi kết quả có thể</p><p>Các chi tiết của <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>37 không liên quan ở đây. Hiện tại, chỉ cần biết rằng việc gọi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>40 trên <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>37 sẽ trả về kết quả đầu tiên và bao quát nhất, trong hầu hết các trường hợp, đó chính là kết quả bạn muốn</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>8</p><p>Có thêm một chức năng trong mô-đun <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>13 hữu ích để phân tích văn bản. <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>43, viết tắt của từ thay thế, cho phép bạn thay thế văn bản trong một chuỗi khớp với biểu thức chính quy bằng văn bản mới. Nó hoạt động giống như phương thức chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>44</p><p>Các đối số được truyền cho <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>43 là biểu thức chính quy, tiếp theo là văn bản thay thế, tiếp theo là chuỗi. Đây là một ví dụ</p><p><span>>>></span> <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>9</p><p>Có lẽ đó không phải là những gì bạn mong đợi sẽ xảy ra</p><p><pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>43 sử dụng biểu thức chính quy <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>47 để tìm và thay thế mọi thứ giữa <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>09 đầu tiên và <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>26 cuối cùng, kéo dài từ đầu <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>50 đến cuối <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>51. Điều này là do các biểu thức chính quy của Python rất tham lam, nghĩa là chúng cố gắng tìm từ khớp dài nhất có thể khi các ký tự như <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>15 được sử dụng</p><p>Ngoài ra, bạn có thể sử dụng mẫu so khớp không tham lam <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>53, kiểu này hoạt động giống như <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>15 ngoại trừ việc nó khớp với chuỗi văn bản ngắn nhất có thể</p><p><span>>>></span> <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>0</p><p>Lần này, <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>43 tìm thấy hai kết quả phù hợp, <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>50 và <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>51, đồng thời thay chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>58 cho cả hai kết quả phù hợp</p><p><p></p>Loại bỏ các quảng cáo</p></section><section><h3 id="trich-xuat-van-ban-tu-html-bang-bieu-thuc-chinh-quy">Trích xuất văn bản từ HTML bằng biểu thức chính quy</h3><p>Được trang bị tất cả những kiến thức này, bây giờ hãy thử phân tích tiêu đề từ một trang hồ sơ khác, bao gồm dòng HTML được viết khá cẩu thả này</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>1</p><p>Phương thức <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>9 sẽ gặp khó khăn khi xử lý sự không nhất quán ở đây, nhưng với việc sử dụng thông minh các biểu thức chính quy, bạn có thể xử lý mã này một cách nhanh chóng và hiệu quả</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>2</p><p>Hãy xem xét kỹ hơn biểu thức chính quy đầu tiên trong chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>60 bằng cách chia nó thành ba phần</p><ol><li><p><pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>61 khớp với thẻ mở đầu <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>62 trong <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>22. Phần <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>64 của mẫu khớp với <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>65 vì <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>35 được gọi với <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>27 và <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>68 khớp với bất kỳ văn bản nào sau <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>65 cho đến phiên bản đầu tiên của <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>26</p></li><li><p><pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>71 không tham lam khớp tất cả văn bản sau phần mở đầu <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>62, dừng ở phần khớp đầu tiên cho <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>73</p></li><li><p><pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>73 khác với mẫu đầu tiên chỉ ở việc sử dụng ký tự <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>75, do đó, nó khớp với thẻ đóng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>76 trong <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>22</p></li></ol><p>Biểu thức chính quy thứ hai, chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>78, cũng sử dụng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>71 không tham lam để khớp với tất cả các thẻ HTML trong chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>80. Bằng cách thay thế bất kỳ kết quả phù hợp nào bằng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>81, <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>43 sẽ xóa tất cả các thẻ và chỉ trả về văn bản</p><p><p>Ghi chú. Quét web bằng Python hoặc bất kỳ ngôn ngữ nào khác có thể rất tẻ nhạt. Không có hai trang web nào được tổ chức theo cùng một cách và HTML thường lộn xộn. Hơn nữa, các trang web thay đổi theo thời gian. Công cụ quét web hoạt động ngày hôm nay không được bảo đảm sẽ hoạt động vào năm tới—hoặc tuần tới, vì vấn đề đó</p><p>Biểu thức chính quy là một công cụ mạnh mẽ khi được sử dụng đúng cách. Trong phần giới thiệu này, bạn hầu như không làm trầy xước bề mặt. Để biết thêm về biểu thức chính quy và cách sử dụng chúng, hãy xem loạt bài gồm hai phần Biểu thức chính quy. Regex trong Python</p></section><section><h3 id="kiem-tra-viec-hieu-cua-ban">Kiểm tra việc hiểu của bạn</h3><p>Mở rộng khối bên dưới để kiểm tra sự hiểu biết của bạn</p><p><p><p><span>Tập thể dục. Cạo dữ liệu từ một trang web</span><span>Hiển thị/Ẩn</span></p><p><p><p>Viết chương trình lấy toàn bộ HTML từ URL sau</p><div style="width:100%; margin:20px auto; display:block">
<ins class="adsbygoogle"
     style="display:block; text-align:center;"
     data-ad-layout="in-article"
     data-ad-format="fluid" 
     data-ad-client="ca-pub-4987931798153631"
     data-ad-slot="8587332220"></ins>
<script>
     (adsbygoogle = window.adsbygoogle || []).push({});
</script>
</div></p><p><span>>>></span> <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>3</p><p>Sau đó sử dụng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>9 để hiển thị văn bản sau Tên. và Màu yêu thích. (không bao gồm bất kỳ dấu cách nào ở đầu hoặc thẻ HTML ở cuối có thể xuất hiện trên cùng một dòng)</p><p>Bạn có thể mở rộng khối bên dưới để xem giải pháp</p><p><p><p><span>Giải pháp. Cạo dữ liệu từ một trang web</span><span>Hiển thị/Ẩn</span></p><p><p><p>Đầu tiên, nhập hàm <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>84 từ mô-đun <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>85</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>4</p><p>Sau đó mở URL và sử dụng phương thức <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>5 của đối tượng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>3 được trả về bởi <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>8 để đọc HTML của trang</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>5</p><p>Phương thức <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>5 trả về một chuỗi byte, vì vậy bạn sử dụng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>6 để giải mã các byte bằng mã hóa UTF-8</p><p>Bây giờ bạn đã có mã nguồn HTML của trang web dưới dạng một chuỗi được gán cho biến <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>91, bạn có thể trích xuất tên và màu sắc yêu thích của Dionysus từ hồ sơ của anh ấy. Cấu trúc HTML cho hồ sơ của Dionysus giống như hồ sơ của Aphrodite mà bạn đã xem trước đó</p><p>Bạn có thể lấy tên bằng cách tìm chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>92 trong văn bản và trích xuất mọi thứ xuất hiện sau lần xuất hiện đầu tiên của chuỗi và trước thẻ HTML tiếp theo. Tức là bạn cần trích xuất mọi thứ sau dấu hai chấm (<pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>93) và trước dấu ngoặc nhọn đầu tiên (<pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>09). Bạn có thể sử dụng kỹ thuật tương tự để trích xuất màu yêu thích</p><p>Vòng lặp <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>95 sau trích xuất văn bản này cho cả tên và màu sắc yêu thích</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>6</p><p>Có vẻ như có rất nhiều thứ đang diễn ra trong vòng lặp <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>95 này, nhưng chỉ cần một chút tính toán số học để tính toán các chỉ số phù hợp để trích xuất văn bản mong muốn. Hãy tiếp tục và phá vỡ nó</p><ol><li><p>Bạn sử dụng <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>97 để tìm chỉ mục bắt đầu của chuỗi, hoặc là <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>92 hoặc là <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>99, sau đó gán chỉ mục cho <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>00</p></li><li><p>Vì văn bản cần trích xuất bắt đầu ngay sau dấu hai chấm trong <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>92 hoặc <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>99, nên bạn lấy chỉ mục của ký tự ngay sau dấu hai chấm bằng cách thêm độ dài của chuỗi vào <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>03, rồi gán kết quả cho <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>04</p></li><li><p>Bạn tính toán chỉ số kết thúc của văn bản cần trích xuất bằng cách xác định chỉ số của dấu ngoặc nhọn đầu tiên (<pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>09) so với <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>04 và gán giá trị này cho <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>07. Sau đó, bạn thêm giá trị đó vào <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>04 và gán kết quả cho <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>09</p></li><li><p>Bạn trích xuất văn bản bằng cách cắt <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>91 từ <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>04 thành <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>09 và gán chuỗi này cho <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>13</p></li><li><p>Bạn xóa mọi khoảng trắng ở đầu và cuối của <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>13 bằng cách sử dụng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>15 và gán kết quả cho <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>16</p></li></ol><p>Khi kết thúc vòng lặp, bạn sử dụng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>17 để hiển thị văn bản được trích xuất. Đầu ra cuối cùng trông như thế này</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>7</p><p>Giải pháp này là một trong nhiều giải pháp giải quyết vấn đề này, vì vậy nếu bạn nhận được kết quả tương tự với một giải pháp khác, thì bạn đã làm rất tốt</p><p>Khi bạn đã sẵn sàng, bạn có thể chuyển sang phần tiếp theo</p></section></section><section><h2 id="su-dung-trinh-phan-tich-cu-phap-html-de-quet-web-bang-python">Sử dụng Trình phân tích cú pháp HTML để quét web bằng Python</h2><p>Mặc dù các biểu thức chính quy rất phù hợp để khớp mẫu nói chung, nhưng đôi khi việc sử dụng trình phân tích cú pháp HTML được thiết kế rõ ràng để phân tích các trang HTML sẽ dễ dàng hơn. Có nhiều công cụ Python được viết cho mục đích này, nhưng thư viện Beautiful Soup là một công cụ tốt để bắt đầu</p><section><h3 id="cai-dat-sup-dep">Cài Đặt Súp Đẹp</h3><p>Để cài đặt Beautiful Soup, bạn có thể chạy lệnh sau trong thiết bị đầu cuối của mình</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>8</p><p>Với lệnh này, bạn đang cài đặt phiên bản Beautiful Soup mới nhất vào môi trường Python toàn cầu của mình</p><p><p></p>Loại bỏ các quảng cáo</p></section><section><h3 id="tao-doi-tuong-gt-gt-gt-page-urlopen-url-18">Tạo đối tượng >>> page = urlopen(url)
18</h3><p>Nhập chương trình sau vào cửa sổ soạn thảo mới</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>9</p><p>Chương trình này thực hiện ba điều</p><ol><li><p>Mở URL <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>19 bằng cách sử dụng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>8 từ mô-đun <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>7</p></li><li><p>Đọc HTML từ trang dưới dạng chuỗi và gán nó cho biến <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>22</p></li><li><p>Tạo một đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>18 và gán nó cho biến <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>24</p></li></ol><p>Đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>18 được gán cho <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>24 được tạo với hai đối số. Đối số đầu tiên là HTML sẽ được phân tích cú pháp và đối số thứ hai, chuỗi <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>27, cho đối tượng biết trình phân tích cú pháp nào sẽ sử dụng ở hậu trường. <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>27 đại diện cho trình phân tích cú pháp HTML tích hợp của Python</p></section><section><h3 id="su-dung-doi-tuong-gt-gt-gt-page-urlopen-url-18">Sử dụng đối tượng >>> page = urlopen(url)
18</h3><p>Lưu và chạy chương trình trên. Khi chạy xong, bạn có thể sử dụng biến <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>24 trong cửa sổ tương tác để phân tích nội dung của <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>22 theo nhiều cách khác nhau</p><p><p>Ghi chú. Nếu bạn không sử dụng IDLE, thì bạn có thể chạy chương trình của mình với cờ <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>32 để vào chế độ tương tác. Một cái gì đó như <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>33 trước tiên sẽ chạy chương trình của bạn và sau đó để bạn ở REPL nơi bạn có thể khám phá các đối tượng của mình</p><p>Ví dụ: các đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>18 có phương thức <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>35 mà bạn có thể sử dụng để trích xuất tất cả văn bản khỏi tài liệu và tự động xóa mọi thẻ HTML</p><p>Nhập mã sau vào cửa sổ tương tác của IDLE hoặc ở cuối mã trong trình chỉnh sửa của bạn</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>10</p><p>Có rất nhiều dòng trống trong đầu ra này. Đây là kết quả của các ký tự xuống dòng trong văn bản của tài liệu HTML. Bạn có thể xóa chúng bằng phương thức chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>44 nếu cần</p><p>Thông thường, bạn chỉ cần lấy văn bản cụ thể từ tài liệu HTML. Trước tiên, sử dụng Beautiful Soup để trích xuất văn bản và sau đó sử dụng phương pháp chuỗi <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>9 đôi khi dễ dàng hơn so với làm việc với các biểu thức thông thường</p><p>Tuy nhiên, những lần khác, chính các thẻ HTML là các yếu tố chỉ ra dữ liệu bạn muốn truy xuất. Chẳng hạn, có lẽ bạn muốn truy xuất URL cho tất cả các hình ảnh trên trang. Các liên kết này được chứa trong thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>38 của thẻ HTML <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>39</p><p>Trong trường hợp này, bạn có thể sử dụng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>40 để trả về danh sách tất cả các phiên bản của thẻ cụ thể đó</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>11</p><p>Điều này trả về một danh sách tất cả các thẻ <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>39 trong tài liệu HTML. Các đối tượng trong danh sách trông giống như chúng có thể là các chuỗi đại diện cho các thẻ, nhưng chúng thực sự là các phiên bản của đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>42 do Beautiful Soup cung cấp. Các đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>42 cung cấp một giao diện đơn giản để làm việc với thông tin mà chúng chứa</p><p>Bạn có thể khám phá điều này một chút trước tiên bằng cách giải nén các đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>42 từ danh sách</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>12</p><p>Mỗi đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>42 có một thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>46 trả về một chuỗi chứa loại thẻ HTML</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>13</p><p>Bạn có thể truy cập các thuộc tính HTML của đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>42 bằng cách đặt tên của chúng giữa các dấu ngoặc vuông, giống như thể các thuộc tính là các khóa trong từ điển</p><p>Ví dụ: thẻ <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>48 có một thuộc tính duy nhất, <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>38, với giá trị <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>50. Tương tự như vậy, một thẻ HTML chẳng hạn như liên kết <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>51 có hai thuộc tính, <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>52 và <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>53</p><p>Để lấy nguồn ảnh trong trang hồ sơ Dionysus, bạn truy cập thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>38 bằng cách sử dụng ký hiệu từ điển nêu trên</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>14</p><p>Một số thẻ trong tài liệu HTML có thể được truy cập bởi các thuộc tính của đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>42. Ví dụ: để lấy thẻ <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>00 trong tài liệu, bạn có thể sử dụng thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>57</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>15</p><p>Nếu bạn xem nguồn của hồ sơ Dionysus bằng cách điều hướng đến trang hồ sơ, nhấp chuột phải vào trang và chọn Xem nguồn trang, thì bạn sẽ nhận thấy rằng thẻ <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>00 được viết hoa toàn bộ và có khoảng trắng</p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS93ZWJzaXRlX2Rpb255c29zX3BhZ2UuOGQ3YmUyNTFkOWEwLnBuZw==.webp"></img></div><p>Beautiful Soup tự động dọn sạch các thẻ cho bạn bằng cách loại bỏ khoảng trống thừa trong thẻ mở và dấu gạch chéo lên phía trước không liên quan (<pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>75) trong thẻ đóng</p><p>Bạn cũng có thể chỉ truy xuất chuỗi giữa các thẻ tiêu đề với thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>60 của đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>42</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>16</p><p>Một trong những tính năng của Beautiful Soup là khả năng tìm kiếm các loại thẻ cụ thể có thuộc tính khớp với các giá trị nhất định. Ví dụ: nếu bạn muốn tìm tất cả các thẻ <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>39 có thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>38 bằng giá trị <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>64, thì bạn có thể cung cấp đối số bổ sung sau cho <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>65</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>17</p><p>Ví dụ này hơi tùy ý và tính hữu ích của kỹ thuật này có thể không rõ ràng từ ví dụ. Nếu bạn dành thời gian duyệt các trang web khác nhau và xem nguồn trang của chúng, thì bạn sẽ nhận thấy rằng nhiều trang web có cấu trúc HTML cực kỳ phức tạp</p><p>Khi cạo dữ liệu từ các trang web bằng Python, bạn thường quan tâm đến các phần cụ thể của trang. Bằng cách dành thời gian xem qua tài liệu HTML, bạn có thể xác định các thẻ có thuộc tính duy nhất mà bạn có thể sử dụng để trích xuất dữ liệu mình cần</p><p>Sau đó, thay vì dựa vào các biểu thức chính quy phức tạp hoặc sử dụng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>9 để tìm kiếm trong tài liệu, bạn có thể truy cập trực tiếp vào thẻ cụ thể mà bạn quan tâm và trích xuất dữ liệu bạn cần</p><p>Trong một số trường hợp, bạn có thể thấy rằng Beautiful Soup không cung cấp chức năng mà bạn cần. Thư viện lxml hơi khó bắt đầu hơn nhưng cung cấp tính linh hoạt hơn nhiều so với Beautiful Soup để phân tích tài liệu HTML. Bạn có thể muốn kiểm tra nó sau khi cảm thấy thoải mái khi sử dụng Beautiful Soup</p><p><p>Ghi chú. Các trình phân tích cú pháp HTML như Beautiful Soup có thể giúp bạn tiết kiệm rất nhiều thời gian và công sức khi định vị dữ liệu cụ thể trong các trang web. Tuy nhiên, đôi khi HTML được viết kém và lộn xộn đến mức ngay cả một trình phân tích cú pháp tinh vi như Beautiful Soup cũng không thể diễn giải đúng các thẻ HTML</p><p>Trong trường hợp này, bạn thường phải sử dụng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>9 và các kỹ thuật biểu thức chính quy để cố gắng phân tích thông tin mà bạn cần</p><p>Beautiful Soup rất tốt để thu thập dữ liệu từ HTML của trang web, nhưng nó không cung cấp bất kỳ cách nào để làm việc với biểu mẫu HTML. Ví dụ: nếu bạn cần tìm kiếm một số truy vấn trên một trang web và sau đó thu thập kết quả, thì một mình Beautiful Soup sẽ không giúp bạn tiến xa được</p><p><p></p>Loại bỏ các quảng cáo</p></section><section><h3 id="kiem-tra-viec-hieu-cua-ban">Kiểm tra việc hiểu của bạn</h3><p>Mở rộng khối bên dưới để kiểm tra sự hiểu biết của bạn</p><p><p><p><span>Tập thể dục. Phân tích cú pháp HTML bằng Beautiful Soup</span><span>Hiển thị/Ẩn</span></p><p><p><p>Viết chương trình lấy toàn bộ HTML từ trang tại URL <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>68</p><p>Sử dụng Beautiful Soup, in ra danh sách tất cả các liên kết trên trang bằng cách tìm các thẻ HTML có tên <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>69 và truy xuất giá trị được lấy bởi thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>52 của mỗi thẻ</p><p>Đầu ra cuối cùng sẽ trông như thế này</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>18</p><p>Đảm bảo rằng bạn chỉ có một dấu gạch chéo (<pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>75) giữa URL cơ sở và URL tương đối</p><p>Bạn có thể mở rộng khối bên dưới để xem giải pháp</p><p><p><p><span>Giải pháp. Phân tích cú pháp HTML bằng Beautiful Soup</span><span>Hiển thị/Ẩn</span></p><p><p><p>Đầu tiên, nhập hàm <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>84 từ mô-đun <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>85 và lớp <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>18 từ gói <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>75</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>19</p><p>Mỗi URL liên kết trên trang <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>76 là một URL tương đối, vì vậy hãy tạo một biến <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>77 với URL cơ sở của trang web</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>50</p><p>Bạn có thể tạo một URL đầy đủ bằng cách nối <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>77 với một URL tương đối</p><div style="width:100%; margin:20px auto; display:block">
<ins class="adsbygoogle"
     style="display:block; text-align:center;"
     data-ad-layout="in-article"
     data-ad-format="fluid" 
     data-ad-client="ca-pub-4987931798153631"
     data-ad-slot="8587332220"></ins>
<script>
     (adsbygoogle = window.adsbygoogle || []).push({});
</script>
</div></p><p>Bây giờ hãy mở trang <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>76 bằng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>8 và sử dụng <pre><code><span>>>> </span><span>start_index</span> <span>=</span> <span>title_index</span> <span>+</span> <span>len</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>start_index</span>
<span>21</span>
</code></pre>5 để lấy mã nguồn HTML</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>51</p><p>Với nguồn HTML được tải xuống và giải mã, bạn có thể tạo một đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>18 mới để phân tích cú pháp HTML</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>52</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>83 trả về danh sách tất cả các liên kết trong mã nguồn HTML. Bạn có thể lặp lại danh sách này để in ra tất cả các liên kết trên trang web</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>53</p><p>Bạn có thể truy cập URL tương đối cho mỗi liên kết thông qua chỉ số phụ <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>84. Nối giá trị này với <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>77 để tạo toàn bộ <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>86</p><p>Khi bạn đã sẵn sàng, bạn có thể chuyển sang phần tiếp theo</p></section></section><section><h2 id="tuong-tac-voi-cac-bieu-mau-html">Tương tác với các biểu mẫu HTML</h2><p>Mô-đun <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>6 mà bạn đã làm việc cho đến nay trong hướng dẫn này rất phù hợp để yêu cầu nội dung của một trang web. Tuy nhiên, đôi khi bạn cần tương tác với một trang web để lấy nội dung bạn cần. Ví dụ: bạn có thể cần gửi biểu mẫu hoặc nhấp vào nút để hiển thị nội dung ẩn</p><p><p>Ghi chú. Hướng dẫn này được chuyển thể từ chương “Tương tác với Web” trong Python Basics. Giới thiệu thực tế về Python 3. Nếu bạn thích những gì bạn đang đọc, thì hãy nhớ xem phần còn lại của cuốn sách</p><p>Thư viện chuẩn Python không cung cấp phương tiện tích hợp sẵn để làm việc với các trang web một cách tương tác, nhưng nhiều gói của bên thứ ba có sẵn từ PyPI. Trong số này, MechanicalSoup là một gói phổ biến và tương đối dễ sử dụng</p><p>Về bản chất, MechanicalSoup cài đặt cái được gọi là trình duyệt không đầu, là trình duyệt web không có giao diện người dùng đồ họa. Trình duyệt này được điều khiển theo chương trình thông qua chương trình Python</p><section><h3 id="cai-dat-mechanicalsoup">Cài đặt MechanicalSoup</h3><p>Bạn có thể cài đặt MechanicalSoup với <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>88 trong thiết bị đầu cuối của mình</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>54</p><p>Bạn sẽ cần đóng và khởi động lại phiên IDLE của mình để MechanicalSoup tải và được nhận dạng sau khi cài đặt</p></section><section><h3 id="tao-doi-tuong-gt-gt-gt-page-urlopen-url-89">Tạo đối tượng >>> page = urlopen(url)
89</h3><p>Nhập nội dung sau vào cửa sổ tương tác của IDLE</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>55</p><p>Các đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>89 đại diện cho trình duyệt web không đầu. Bạn có thể sử dụng chúng để yêu cầu một trang từ Internet bằng cách chuyển URL tới phương thức <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>91 của chúng</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>56</p><p><pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>92 là một đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>93 lưu trữ phản hồi từ việc yêu cầu URL từ trình duyệt</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>57</p><p>Số <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>94 đại diện cho mã trạng thái được yêu cầu trả về. Mã trạng thái của <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>94 có nghĩa là yêu cầu đã thành công. Yêu cầu không thành công có thể hiển thị mã trạng thái là <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>96 nếu URL không tồn tại hoặc <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>97 nếu có lỗi máy chủ khi thực hiện yêu cầu</p><p>MechanicalSoup sử dụng Beautiful Soup để phân tích cú pháp HTML từ yêu cầu và <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>92 có thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>99 đại diện cho đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>18</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>58</p><p>Bạn có thể xem HTML bằng cách kiểm tra thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>99</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>59</p><p>Lưu ý rằng trang này có một <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>102 trên đó với các phần tử <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>103 cho tên người dùng và mật khẩu</p><p><p></p>Loại bỏ các quảng cáo</p></section><section><h3 id="gui-bieu-mau-voi-mechanicalsoup">Gửi biểu mẫu với MechanicalSoup</h3><p>Mở trang <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>104 từ ví dụ trước trong trình duyệt và tự xem trang đó trước khi tiếp tục</p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS93ZWJzaXRlX2xvZ2luLjczOWY0ODhmYmU3NC5wbmc=.webp"></img></div><p>Hãy thử nhập kết hợp tên người dùng và mật khẩu ngẫu nhiên. Nếu bạn đoán sai, thì thông báo Sai tên người dùng hoặc mật khẩu. được hiển thị ở dưới cùng của trang</p><p>Tuy nhiên, nếu bạn cung cấp thông tin đăng nhập chính xác thì bạn sẽ được chuyển hướng đến trang <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>76</p><p>Tên người dùngMật khẩu<pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>106<pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>107</p><p>Trong ví dụ tiếp theo, bạn sẽ thấy cách sử dụng MechanicalSoup để điền và gửi biểu mẫu này bằng Python</p><p>Phần quan trọng của mã HTML là biểu mẫu đăng nhập—nghĩa là mọi thứ bên trong thẻ <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>102. <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>102 trên trang này có thuộc tính <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>110 được đặt thành <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>111. Biểu mẫu này chứa hai phần tử <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>103, một phần tử có tên là <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>113 và phần tử kia có tên là <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>114. Phần tử <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>103 thứ ba là nút Gửi</p><p>Bây giờ bạn đã biết cấu trúc cơ bản của biểu mẫu đăng nhập, cũng như thông tin đăng nhập cần thiết để đăng nhập, hãy xem một chương trình điền vào biểu mẫu và gửi biểu mẫu đó</p><p>Trong cửa sổ soạn thảo mới, gõ vào chương trình sau</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>60</p><p>Lưu tệp và nhấn  <span>F5</span>  để chạy tệp. Để xác nhận rằng bạn đã đăng nhập thành công, hãy nhập thông tin sau vào cửa sổ tương tác. </p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>61</p><p>Bây giờ chia nhỏ ví dụ trên</p><ol><li><p>Bạn tạo một phiên bản <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>89 và sử dụng nó để yêu cầu URL <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>117. Bạn gán nội dung HTML của trang cho biến <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>118 bằng cách sử dụng thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>99</p></li><li><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>120 trả về danh sách tất cả các phần tử <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>102 trên trang. Vì trang chỉ có một phần tử <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>102 nên bạn có thể truy cập biểu mẫu bằng cách truy xuất phần tử tại chỉ mục <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>123 của danh sách. Khi chỉ có một biểu mẫu trên một trang, bạn cũng có thể sử dụng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>124. Hai dòng tiếp theo chọn đầu vào tên người dùng và mật khẩu và đặt giá trị của chúng lần lượt là <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>125 và <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>126</p></li><li><p>Bạn gửi biểu mẫu với <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>127. Lưu ý rằng bạn truyền hai đối số cho phương thức này, đối tượng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>128 và URL của <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>129 mà bạn truy cập thông qua <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>130</p></li></ol><p>Trong cửa sổ tương tác, bạn xác nhận rằng nội dung gửi đã được chuyển hướng thành công đến trang <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>76. Nếu có gì đó không ổn, thì giá trị của <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>132 vẫn sẽ là <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>133</p><p><p>Ghi chú. Tin tặc có thể sử dụng các chương trình tự động như chương trình ở trên để đăng nhập bằng vũ lực bằng cách nhanh chóng thử nhiều tên người dùng và mật khẩu khác nhau cho đến khi chúng tìm thấy sự kết hợp hoạt động</p><p>Bên cạnh việc điều này rất bất hợp pháp, hầu hết tất cả các trang web ngày nay đều khóa bạn và báo cáo địa chỉ IP của bạn nếu họ thấy bạn thực hiện quá nhiều yêu cầu không thành công, vì vậy đừng thử</p><p>Bây giờ bạn đã có bộ biến <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>134, đã đến lúc lấy URL cho mỗi liên kết trên trang <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>76 theo chương trình</p><p>Để làm điều này, bạn sử dụng lại <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>136, lần này chuyển chuỗi <pre><code><span>>>> </span><span>url</span> <span>=</span> <span>"http://olympus.realpython.org/profiles/aphrodite"</span>
</code></pre>21 để chọn tất cả các phần tử neo <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>138 trên trang</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>62</p><p>Bây giờ bạn có thể lặp qua từng liên kết và in thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>52</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>63</p><p>Các URL có trong mỗi thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>52 là các URL tương đối, không hữu ích lắm nếu bạn muốn điều hướng đến chúng sau này bằng MechanicalSoup. Nếu bạn tình cờ biết URL đầy đủ, thì bạn có thể chỉ định phần cần thiết để tạo URL đầy đủ</p><p>Trong trường hợp này, URL cơ sở chỉ là <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>141. Sau đó, bạn có thể nối URL cơ sở với các URL tương đối được tìm thấy trong thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>38</p><p><span>>>></span> <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>64</p><p>Bạn có thể làm được rất nhiều việc chỉ với <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>91, <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>136 và <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>145. Điều đó nói rằng, MechanicalSoup có khả năng nhiều hơn nữa. Để tìm hiểu thêm về MechanicalSoup, hãy xem tài liệu chính thức</p><p><p></p>Loại bỏ các quảng cáo</p></section><section><h3 id="kiem-tra-viec-hieu-cua-ban">Kiểm tra việc hiểu của bạn</h3><p>Mở rộng khối bên dưới để kiểm tra sự hiểu biết của bạn</p><p><p><p><span>Tập thể dục. Gửi biểu mẫu bằng MechanicalSoup</span><span>Hiển thị/Ẩn</span></p><p><p><p>Sử dụng MechanicalSoup để cung cấp đúng tên người dùng (<pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>106) và mật khẩu (<pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>107) cho biểu mẫu đăng nhập có tại URL <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>117</p><p>Sau khi biểu mẫu được gửi, hãy hiển thị tiêu đề của trang hiện tại để xác định rằng bạn đã được chuyển hướng đến trang <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>76</p><p>Chương trình của bạn sẽ in văn bản <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>150</p><p>Bạn có thể mở rộng khối bên dưới để xem giải pháp</p><p><p><p><span>Giải pháp. Gửi biểu mẫu bằng MechanicalSoup</span><span>Hiển thị/Ẩn</span></p><p><p><p>Đầu tiên, nhập gói <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>151 và tạo đối tượng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>152</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>65</p><p>Trỏ trình duyệt đến trang đăng nhập bằng cách chuyển URL tới <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>153 và lấy HTML có thuộc tính <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>99</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>66</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>118 là một phiên bản <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>18. Vì trang chỉ có một biểu mẫu duy nhất trên đó nên bạn có thể truy cập biểu mẫu qua <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>124. Sử dụng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>136, chọn đầu vào tên người dùng và mật khẩu và điền chúng bằng tên người dùng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>125 và mật khẩu <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>126</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>67</p><p>Bây giờ biểu mẫu đã được điền đầy đủ, bạn có thể gửi kèm theo <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>127</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>68</p><p>Nếu bạn điền đúng tên người dùng và mật khẩu vào biểu mẫu, thì <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>134 thực sự sẽ trỏ đến trang <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>76. Bạn có thể xác nhận điều này bằng cách in tiêu đề của trang được gán cho <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>164</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>69</p><p>Bạn sẽ thấy văn bản sau được hiển thị</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>0</p><p>Nếu thay vào đó, bạn thấy văn bản <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>165 hoặc nội dung khác, thì việc gửi biểu mẫu không thành công</p><p>Khi bạn đã sẵn sàng, bạn có thể chuyển sang phần tiếp theo</p></section></section><section><h2 id="tuong-tac-voi-cac-trang-web-trong-thoi-gian-thuc">Tương tác với các trang web trong thời gian thực</h2><p>Đôi khi bạn muốn có thể lấy dữ liệu theo thời gian thực từ một trang web cung cấp thông tin được cập nhật liên tục</p><p>Vào những ngày đen tối trước khi bạn học lập trình Python, bạn phải ngồi trước trình duyệt, nhấp vào nút Làm mới để tải lại trang mỗi khi bạn muốn kiểm tra xem có nội dung cập nhật hay không. Nhưng bây giờ bạn có thể tự động hóa quy trình này bằng cách sử dụng phương thức <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>91 của đối tượng MechanicalSoup <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>89</p><p>Mở trình duyệt bạn chọn và điều hướng đến URL <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>168</p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS93ZWJzaXRlX2RpY2UuM2NkZDA5MDYxZjU1LnBuZw==.webp"></img></div><p>Trang <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>169 này mô phỏng trò tung xúc xắc sáu mặt, cập nhật kết quả mỗi khi bạn làm mới trình duyệt. Dưới đây, bạn sẽ viết một chương trình liên tục quét trang để có kết quả mới</p><p>Điều đầu tiên bạn cần làm là xác định phần tử nào trên trang chứa kết quả của việc tung xúc xắc. Thực hiện việc này ngay bây giờ bằng cách nhấp chuột phải vào bất kỳ đâu trên trang và chọn Xem nguồn trang. Hơn một nửa mã HTML là một thẻ <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>170 trông như thế này</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>1</p><p>Văn bản của thẻ <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>170 có thể khác đối với bạn, nhưng đây là thành phần trang bạn cần để trích xuất kết quả</p><p><p>Ghi chú. Đối với ví dụ này, bạn có thể dễ dàng kiểm tra xem chỉ có một phần tử trên trang có <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>172. Mặc dù thuộc tính <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>173 được coi là duy nhất, nhưng trên thực tế, bạn phải luôn kiểm tra xem phần tử bạn quan tâm có được xác định duy nhất không</p><p>Bây giờ hãy bắt đầu bằng cách viết một chương trình đơn giản mở trang <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>169, loại bỏ kết quả và in nó ra bàn điều khiển</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>2</p><p>Ví dụ này sử dụng phương thức <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>136 của đối tượng <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>18 để tìm phần tử có <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>177. Chuỗi <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>178 mà bạn chuyển đến <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>136, sử dụng bộ chọn ID CSS <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>180 để cho biết rằng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>181 là một giá trị <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>173</p><p>Để định kỳ nhận được kết quả mới, bạn sẽ cần tạo một vòng lặp tải trang ở mỗi bước. Vì vậy, mọi thứ bên dưới dòng <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>183 trong đoạn mã trên cần phải nằm trong phần thân của vòng lặp</p><p>Đối với ví dụ này, bạn muốn tung xúc xắc bốn lần cách nhau mười giây. Để làm điều đó, dòng mã cuối cùng của bạn cần yêu cầu Python tạm dừng chạy trong mười giây. Bạn có thể làm điều này với <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>184 từ mô-đun <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>185 của Python. Phương thức <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>184 lấy một đối số duy nhất biểu thị lượng thời gian để ngủ tính bằng giây</p><p>Đây là một ví dụ minh họa cách hoạt động của <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>187</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>3</p><p>Khi bạn chạy mã này, bạn sẽ thấy rằng thông báo <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>188 không được hiển thị cho đến khi năm giây trôi qua kể từ khi hàm <pre><code><span>>>> </span><span>page</span> <span>=</span> <span>urlopen</span><span>(</span><span>url</span><span>)</span>
</code></pre>17 đầu tiên được thực thi</p><p>Đối với ví dụ về cuộn xúc xắc, bạn sẽ cần chuyển số <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>190 đến <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>187. Đây là chương trình cập nhật</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>4</p><p>Khi chạy chương trình, bạn sẽ thấy ngay kết quả đầu tiên được in ra bàn điều khiển. Sau mười giây, kết quả thứ hai được hiển thị, sau đó là kết quả thứ ba và cuối cùng là kết quả thứ tư. Điều gì xảy ra sau khi kết quả thứ tư được in ra?</p><p>Chương trình tiếp tục chạy thêm mười giây nữa trước khi dừng lại. Đó là một sự lãng phí thời gian. Bạn có thể ngăn nó làm điều này bằng cách sử dụng câu lệnh <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>192 để chạy <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>193 chỉ cho ba yêu cầu đầu tiên</p><p><pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>5</p><p>Với các kỹ thuật như thế này, bạn có thể thu thập dữ liệu từ các trang web cập nhật dữ liệu của họ theo định kỳ. Tuy nhiên, bạn nên lưu ý rằng việc yêu cầu một trang nhiều lần liên tiếp có thể bị coi là hành vi sử dụng trang web đáng ngờ hoặc thậm chí là độc hại</p><p><p>Quan trọng. Hầu hết các trang web xuất bản tài liệu Điều khoản sử dụng. Bạn thường có thể tìm thấy một liên kết đến nó ở chân trang của trang web</p><p>Luôn đọc tài liệu này trước khi cố gắng lấy dữ liệu từ một trang web. Nếu bạn không thể tìm thấy Điều khoản sử dụng, hãy thử liên hệ với chủ sở hữu trang web và hỏi họ xem họ có bất kỳ chính sách nào liên quan đến khối lượng yêu cầu không</p><p>Việc không tuân thủ Điều khoản sử dụng có thể dẫn đến việc IP của bạn bị chặn, vì vậy hãy cẩn thận</p><p>Thậm chí có thể làm sập máy chủ với số lượng yêu cầu quá nhiều, vì vậy bạn có thể tưởng tượng rằng nhiều trang web lo ngại về số lượng yêu cầu đến máy chủ của họ. Luôn kiểm tra Điều khoản sử dụng và tôn trọng khi gửi nhiều yêu cầu đến một trang web</p><p><p></p>Loại bỏ các quảng cáo</p></section><section><h2 id="phan-ket-luan">Phần kết luận</h2><p>Mặc dù có thể phân tích cú pháp dữ liệu từ Web bằng các công cụ trong thư viện chuẩn của Python, nhưng có nhiều công cụ trên PyPI có thể giúp đơn giản hóa quy trình</p><p>Trong hướng dẫn này, bạn đã học cách</p><ul><li>Yêu cầu một trang web bằng mô-đun <pre><code><span>>>> </span><span>title_index</span> <span>=</span> <span>html</span><span>.</span><span>find</span><span>(</span><span>"<title>"</span><span>)</span>
<span>>>> </span><span>title_index</span>
<span>14</span>
</code></pre>6 tích hợp sẵn của Python</li><li>Phân tích cú pháp HTML bằng Beautiful Soup</li><li>Tương tác với các biểu mẫu web bằng MechanicalSoup</li><li>Liên tục yêu cầu dữ liệu từ một trang web để kiểm tra các bản cập nhật</li></ul><p>Viết các chương trình quét web tự động rất thú vị và Internet không thiếu nội dung có thể dẫn đến tất cả các loại dự án thú vị</p><p>Chỉ cần nhớ rằng, không phải ai cũng muốn bạn lấy dữ liệu từ máy chủ web của họ. Luôn kiểm tra Điều khoản sử dụng của trang web trước khi bạn bắt đầu thu thập dữ liệu và tôn trọng cách bạn tính thời gian cho các yêu cầu web của mình để bạn không làm ngập máy chủ với lưu lượng truy cập</p><p><p>Mã nguồn. Nhấp vào đây để tải xuống mã nguồn miễn phí mà bạn sẽ sử dụng để thu thập và phân tích dữ liệu từ Web</p></section><section><h2 id="tai-nguyen-bo-sung">Tài nguyên bổ sung</h2><p>Để biết thêm thông tin về quét web bằng Python, hãy xem các tài nguyên sau</p><ul><li>súp đẹp. Xây dựng một Web Scraper với Python</li><li>Tích hợp API trong Python</li><li>Python & API. Một kết hợp chiến thắng để đọc dữ liệu công khai</li></ul><p><p>Ghi chú. Nếu bạn thích những gì bạn học được trong ví dụ này từ Python Basics. Giới thiệu thực tế về Python 3, thì hãy nhớ xem phần còn lại của cuốn sách</p></section><p><p>Đánh dấu là đã hoàn thành</p><span><p></p></span></p><p><p>🐍 Thủ thuật Python 💌</p><p><p><p><p><p>Nhận một Thủ thuật Python ngắn và hấp dẫn được gửi đến hộp thư đến của bạn vài ngày một lần. Không có thư rác bao giờ. Hủy đăng ký bất cứ lúc nào. Được quản lý bởi nhóm Real Python</p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9jZG4ucmVhbHB5dGhvbi5jb20vc3RhdGljL3B5dHJpY2stZGljdC1tZXJnZS40MjAxYTAxMjVhNWUucG5n.webp"></img></div></p><p> <p></p>Gửi cho tôi thủ thuật Python »</p><p><p>Giới thiệu về David Amos</p><p><p><p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9yb2JvY3JvcC5yZWFscHl0aG9uLm5ldC8/dXJsPWh0dHBzJTNBLy9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS9tZS1zbWFsbC5mNWY0OWYxYzQ4ZTEuanBnJnc9NDAwJmg9NDAwJm1vZGU9Y3JvcCZzaWc9NTIyZWJjMzc4NDkyZmQyMjI4ZjhhOTk4MGJmODk1NDRiNTFhYmEyYw==.webp"></img></div><div class="imgBox"><img alt="Quét web HTML là gì?" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9yb2JvY3JvcC5yZWFscHl0aG9uLm5ldC8/dXJsPWh0dHBzJTNBLy9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS9tZS1zbWFsbC5mNWY0OWYxYzQ4ZTEuanBnJnc9NDAwJmg9NDAwJm1vZGU9Y3JvcCZzaWc9NTIyZWJjMzc4NDkyZmQyMjI4ZjhhOTk4MGJmODk1NDRiNTFhYmEyYw==.webp" ></img></div></p><p><p>David là một nhà văn, lập trình viên và nhà toán học đam mê khám phá toán học thông qua mã</p>» Thông tin thêm về David</p><hr><p><p><p><p>Mỗi hướng dẫn tại Real Python được tạo bởi một nhóm các nhà phát triển để nó đáp ứng các tiêu chuẩn chất lượng cao của chúng tôi. Các thành viên trong nhóm đã làm việc trong hướng dẫn này là</p><p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9yb2JvY3JvcC5yZWFscHl0aG9uLm5ldC8/dXJsPWh0dHBzJTNBLy9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS9QUC45YjhiMDI2Zjc1YjguanBnJnc9OTU5Jmg9OTU5Jm1vZGU9Y3JvcCZzaWc9NzBiZWRjMmVhYjkwYTIyN2ViOWE2NTdjNDE1Njg5YzNlYjFlY2E0Zg==.webp"></img></div></p><p><p>Aldren</p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9yb2JvY3JvcC5yZWFscHl0aG9uLm5ldC8/dXJsPWh0dHBzJTNBLy9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS9nYWhqZWxsZS40NzAxNDllZTcwOWUuanBnJnc9ODAwJmg9ODAwJm1vZGU9Y3JvcCZzaWc9ZTliNzYxYzZjZjEzNTk5NTMwMTRkYmEwNTU1NGY1NDI0ZWIxMTZlMQ==.webp"></img></div></p><p><p>Geir Arne</p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9yb2JvY3JvcC5yZWFscHl0aG9uLm5ldC8/dXJsPWh0dHBzJTNBLy9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS9qamFibG9ua3NpLWF2YXRhci5lMzdjNGY4MzMwOGUuanBnJnc9ODAwJmg9ODAwJm1vZGU9Y3JvcCZzaWc9YzM2M2I3MDRlZWNjYjM1ZjIyNDdkYjEzYmFmZjNkNDM4MzQ1OTg1OA==.webp"></img></div></p><p><p>Joanna</p><p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9yb2JvY3JvcC5yZWFscHl0aG9uLm5ldC8/dXJsPWh0dHBzJTNBLy9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS9wcm9maWxlLXNtYWxsX2pzLjJmNGQwZDhkYTFjYS5qcGcmdz00MDAmaD00MDAmbW9kZT1jcm9wJnNpZz1kMTBkOWZjMzViYTRhNjYwODk2OWU3MWI0YzI0YzFlNjExNzZlZTJk.webp"></img></div></p><p><p>Gia-cốp</p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9yb2JvY3JvcC5yZWFscHl0aG9uLm5ldC8/dXJsPWh0dHBzJTNBLy9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS9WWnhFdFVvcl80MDB4NDAwLjcxNjljNjhlMzk1MC5qcGcmdz00MDAmaD00MDAmbW9kZT1jcm9wJnNpZz1kZmE5YjgwNjEwN2Q1ZDQ0ZTlhNDc1MGI5NjE4YTI2MTQxNTMxNjRi.webp"></img></div></p><p><p>kate</p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9yb2JvY3JvcC5yZWFscHl0aG9uLm5ldC8/dXJsPWh0dHBzJTNBLy9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS9tYXJ0aW5fYnJldXNzX3B5dGhvbl9zcXVhcmUuZWZiMmIwN2ZhZjlmLmpwZyZ3PTQ1NiZoPTQ1NiZtb2RlPWNyb3Amc2lnPWY3M2Y2YWU2NjgyNDljN2FiOWZmNzRjNjFlYTVhZTdjNWQzNjBkNTQ=.webp"></img></div></p><p><p>Martin</p><p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9yb2JvY3JvcC5yZWFscHl0aG9uLm5ldC8/dXJsPWh0dHBzJTNBLy9maWxlcy5yZWFscHl0aG9uLmNvbS9tZWRpYS9waGk1XzIuMGU2MWI0YzY2ZjZiLmpwZyZ3PTQwMCZoPTQwMCZtb2RlPWNyb3Amc2lnPWZkMjNjYzBlOTYwZmM4MTA5NTYwZDBiOTJmNzI2OTFjNzc2MGQ5YWY=.webp"></img></div></p><p><p>Philipp</p><p><p><p>Bậc thầy  <span>Kỹ năng Python trong thế giới thực</span>  Với quyền truy cập không giới hạn vào Python thực</p><p><div class="imgBox"><img alt="Quét web HTML là gì?" src="/dist/images/loading.svg" data-orgimg="https://sg.cdnki.com/quet-web-html-la-gi---aHR0cHM6Ly9jZG4ucmVhbHB5dGhvbi5jb20vc3RhdGljL3ZpZGVvcy9sZXNzb24tbG9ja2VkLmY1MTA1Y2ZkMjZkYi5zdmc=.webp"></img></div></p><p>Tham gia với chúng tôi và có quyền truy cập vào hàng nghìn hướng dẫn, khóa học video thực hành và cộng đồng các Pythonistas chuyên gia</p><p>Nâng cao kỹ năng Python của bạn »</p><p><p>Bậc thầy  <span>Kỹ năng Python trong thế giới thực</span><br>Với quyền truy cập không giới hạn vào Python thực</p><p></p><p>Tham gia với chúng tôi và có quyền truy cập vào hàng ngàn hướng dẫn, khóa học video thực hành và cộng đồng Pythonistas chuyên gia</p><p>Nâng cao kỹ năng Python của bạn »</p><p><p>Bạn nghĩ sao?</p><p><p>Đánh giá bài viết này<p></p><span>Tweet Chia sẻ Chia sẻ Email</span></p><p><p>Bài học số 1 hoặc điều yêu thích mà bạn đã học được là gì? </p><p><p>Mẹo bình luận. Những nhận xét hữu ích nhất là những nhận xét được viết với mục đích học hỏi hoặc giúp đỡ các sinh viên khác. Nhận các mẹo để đặt câu hỏi hay và nhận câu trả lời cho các câu hỏi phổ biến trong cổng thông tin hỗ trợ của chúng tôi</p><div></div> <div></div>
			<h3 id="web-cao-voi-vi-du-la-gi">web cạo với ví dụ là gì?</h3>
			<div>Tìm kiếm web đề cập đến  <span>việc trích xuất dữ liệu web sang định dạng hữu ích hơn cho người dùng</span> . Ví dụ: bạn có thể lấy thông tin sản phẩm từ trang web thương mại điện tử vào bảng tính excel. Mặc dù việc quét web có thể được thực hiện thủ công, nhưng trong hầu hết các trường hợp, bạn nên sử dụng công cụ tự động sẽ tốt hơn. </div>
		
			<h3 id="muc-dich-cua-cao-la-gi">Mục đích của cạo là gì?</h3>
			<div>Cạo là kỹ thuật điều trị sử dụng các công cụ  <span>cho phép bác sĩ lâm sàng xác định vị trí và điều trị hiệu quả tình trạng căng và tổn thương mô mềm</span> . Các dụng cụ cạo giúp phá vỡ các chất kết dính này và khôi phục khả năng vận động bình thường của mô, giống như bất kỳ hình thức vận động mô mềm hoặc xoa bóp mô sâu nào khác. </div>
		
			<h3 id="ky-thuat-cao-web-la-gi">Kỹ thuật cạo web là gì?</h3>
			<div>Tìm kiếm dữ liệu hoặc quét web là  <span>quá trình nhập dữ liệu từ trang web vào tệp hoặc bảng tính</span> . Nó được sử dụng để trích xuất dữ liệu từ web, cho mục đích sử dụng cá nhân của người điều hành cạo hoặc để sử dụng lại dữ liệu trên các trang web khác. Có rất nhiều ứng dụng phần mềm để tự động cạo dữ liệu. </div></p></div>
                                    <div class="readmore_content_exists"><button id="readmore_content"><span class="arrow"><span></span></span>Đọc tiếp</button></div>
                                </td></tr></table>
																

															 <script async src="/dist/js/lazyhtml.min.js" crossorigin="anonymous"></script>
							 <div class="lazyhtml" data-lazyhtml>
								<script type="text/lazyhtml">
									<div class="youtubeVideo"><h3>Video liên quan</h3>
            <iframe width="560" height="315" src="https://www.youtube.com/embed/06hs3rWD28E?controls=0" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"allowfullscreen></iframe>
									</div>
								</script>
							  </div>
														
							<div class="mt-3">
								<div class="tags">
																  <a href="https://ancanmarketing.com/tags/programming" class="tag-link">programming</a>
																  <a href="https://ancanmarketing.com/tags/html" class="tag-link">html</a>
																</div>
							</div>
							
							
							<div class="post-tools">
                                    <button data-postid="quet-web-html-la-gi" class="btn btn-answerModalBox"><img class="mr-1" alt="Quét web HTML là gì?" src="/dist/images/svg/messages_16.svg">Reply</button>
                                    <button data-postid="quet-web-html-la-gi" data-vote="up"  class="btn btn-doVote"><img class="mr-1" alt="Quét web HTML là gì?"  src="/dist/images/svg/face-smile_16.svg">5</button>
                                    <button data-postid="quet-web-html-la-gi" data-vote="down" class="btn btn-doVote"><img class="mr-1" alt="Quét web HTML là gì?"  src="/dist/images/svg/poo_16.svg">0</button>
                                    <button class="btn"><img class="mr-1" alt="Quét web HTML là gì?"  src="/dist/images/svg/facebook_16.svg"> Chia sẻ</button>
                            </div> 	
							
                            </div><!-- end question-post-body -->
                        </div><!-- end question-post-body-wrap -->
                    </div><!-- end question -->
                    
                    <div id="answers_quet-web-html-la-gi" class="answers"> </div><!-- end answer-wrap -->
					
					<div class="entryFooter">
							<div class="footerLinkAds"><div style="width:100%; margin:0 auto;">
<ins class="adsbygoogle"
     style="display:block"
     data-ad-format="autorelaxed"
     data-ad-client="ca-pub-4987931798153631"
     data-ad-slot="8199996671"></ins>
<script>
     (adsbygoogle = window.adsbygoogle || []).push({});
</script>
</div>
</div>							
							<div class="footerRelated"><div class="postRelatedWidget">
<h2>Bài Viết Liên Quan</h2>


<div class="questions-snippet layoutNews border-top border-top-gray">
  <div class="max-width:840px">					
<ins class="adsbygoogle"
     style="display:block"
     data-ad-format="fluid"
     data-ad-layout-key="-fb-44+c1-1p-ns"
     data-ad-client="ca-pub-4987931798153631"
     data-ad-slot="7655066491"></ins>
<script>
     (adsbygoogle = window.adsbygoogle || []).push({});
</script>
</div>
<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/van-mau-ta-con-vat-em-yeu-thich-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/zHJXSNpsFM8/hq720.jpg?sqp=-oaymwEXCNAFEJQDSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLAxd7lB1JGeCeDh5fLrviso8HB2yA" alt="Văn mẫu tả con vật em yêu thích năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/van-mau-ta-con-vat-em-yeu-thich-nam-2024">Văn mẫu tả con vật em yêu thích năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/tinh-gia-tri-trung-binh-xac-suat-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/y4faLUSL84Q/hqdefault.jpg?sqp=-oaymwEjCOADEI4CSFryq4qpAxUIARUAAAAAGAElAADIQj0AgKJDeAE=&rs=AOn4CLA1ia5_ZJ4_6YFoQKGjwUKFQSPHWQ" alt="Tính giá trị trung bình xác suất năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/tinh-gia-tri-trung-binh-xac-suat-nam-2024">Tính giá trị trung bình xác suất năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Cryto" class="tag-link">Cryto</a>
                                        <a href="/tags/Giá " class="tag-link">Giá </a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/giai-toan-nang-cao-lop-7-dai-so-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/3O9chVG_-1c/hq720.jpg?sqp=-oaymwExCNAFEJQDSFryq4qpAyMIARUAAIhCGAHwAQH4Af4JgALQBYoCDAgAEAEYNyBlKFAwDw==&rs=AOn4CLAqpuC3_hs3KObvERDXaSnX7eFolw" alt="Giải toán nâng cao lớp 7 đại số năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/giai-toan-nang-cao-lop-7-dai-so-nam-2024">Giải toán nâng cao lớp 7 đại số năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/van-phong-dai-dien-hang-hang-khong-singapore-airlines-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/x8qJ9glDhjw/hq720_2.jpg?sqp=-oaymwExCNAFEJQDSFryq4qpAyMIARUAAIhCGADwAQH4Ac4FgAKACooCDAgAEAEYZSBgKFcwDw==&rs=AOn4CLDyCbAQO3kly-IorHlNReEsxdN0fw" alt="Văn phòng đại diện hãng hàng không singapore airlines năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/van-phong-dai-dien-hang-hang-khong-singapore-airlines-nam-2024">Văn phòng đại diện hãng hàng không singapore airlines năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/gia-tien-cua-serum-cho-tre-hoa-lan-da-collagen-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/gFxpQZNl0Tw/hq720.jpg?sqp=-oaymwExCNAFEJQDSFryq4qpAyMIARUAAIhCGAHwAQH4AdQGgALgA4oCDAgAEAEYciBPKEUwDw==&rs=AOn4CLDazij55BRvzC3JrAxHvu1j7kc0Rw" alt="Giá tiền của serum cho trẻ hóa làn da collagen năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/gia-tien-cua-serum-cho-tre-hoa-lan-da-collagen-nam-2024">Giá tiền của serum cho trẻ hóa làn da collagen năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Cryto" class="tag-link">Cryto</a>
                                        <a href="/tags/Giá " class="tag-link">Giá </a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/danh-muc-van-hoa-pham-nhap-khau-kiem-tra-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/6TwdDHhAi6s/hq720.jpg?sqp=-oaymwEXCNAFEJQDSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLBkYpfETPTahsmmMDmjqG8DiFEfKQ" alt="Danh mục văn hóa phẩm nhập khẩu kiểm tra năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/danh-muc-van-hoa-pham-nhap-khau-kiem-tra-nam-2024">Danh mục văn hóa phẩm nhập khẩu kiểm tra năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/bai-tap-ve-can-bac-hai-va-hang-dang-thuc-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/AbQK_fiSFgA/hq720.jpg?sqp=-oaymwExCNAFEJQDSFryq4qpAyMIARUAAIhCGAHwAQH4Af4OgAK4CIoCDAgAEAEYSiBlKF4wDw==&rs=AOn4CLDCzW2ptmDcFWk0opLK5mq9UHWEyg" alt="Bài tập về căn bậc hai và hằng đẳng thức năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/bai-tap-ve-can-bac-hai-va-hang-dang-thuc-nam-2024">Bài tập về căn bậc hai và hằng đẳng thức năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Khỏe Đẹp" class="tag-link">Khỏe Đẹp</a>
                                        <a href="/tags/Bài tập" class="tag-link">Bài tập</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/bai-tap-ngan-hang-trung-uong-co-loi-giai-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/nqzGjlTVJHI/hq720.jpg?sqp=-oaymwExCNAFEJQDSFryq4qpAyMIARUAAIhCGAHwAQH4Af4OgAK4CIoCDAgAEAEYRyBOKGUwDw==&rs=AOn4CLC8xrTp6msT0xy4RQpyETxHvfmq0Q" alt="Bài tập ngân hàng trung ương có lời giải năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/bai-tap-ngan-hang-trung-uong-co-loi-giai-nam-2024">Bài tập ngân hàng trung ương có lời giải năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Khỏe Đẹp" class="tag-link">Khỏe Đẹp</a>
                                        <a href="/tags/Bài tập" class="tag-link">Bài tập</a>
                                        <a href="/tags/Khoa Học" class="tag-link">Khoa Học</a>
                                        <a href="/tags/Ngân hà" class="tag-link">Ngân hà</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/lam-the-nao-de-khoa-messenger-tam-thoi-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/ASA7J4U4DXE/hq720.jpg?sqp=-oaymwEXCNAFEJQDSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLDA4S7fl_bhC3UWLN93cTFGvlMZuA" alt="Làm thế nào để khoá messenger tạm thời năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/lam-the-nao-de-khoa-messenger-tam-thoi-nam-2024">Làm thế nào để khoá messenger tạm thời năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Hỏi Đáp" class="tag-link">Hỏi Đáp</a>
                                        <a href="/tags/Thế nào" class="tag-link">Thế nào</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/loi-khong-vao-duoc-lien-quan-1999-1-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/8zE_zVjcFAk/hqdefault.jpg?sqp=-oaymwEjCOADEI4CSFryq4qpAxUIARUAAAAAGAElAADIQj0AgKJDeAE=&rs=AOn4CLDB5M4TvjSSMHagplaOOzzdZ0xrfQ" alt="Lỗi không vào được liên quân 1999-1 năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/loi-khong-vao-duoc-lien-quan-1999-1-nam-2024">Lỗi không vào được liên quân 1999-1 năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	 <div class="max-width:840px">					
<ins class="adsbygoogle"
     style="display:block"
     data-ad-format="fluid"
     data-ad-layout-key="-fb-44+c1-1p-ns"
     data-ad-client="ca-pub-4987931798153631"
     data-ad-slot="7655066491"></ins>
<script>
     (adsbygoogle = window.adsbygoogle || []).push({});
</script>
</div>
<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/bai-tap-bo-sung-hoa-9-bai-17-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/Rd9nZz9baVA/hqdefault.jpg?sqp=-oaymwEjCOADEI4CSFryq4qpAxUIARUAAAAAGAElAADIQj0AgKJDeAE=&rs=AOn4CLAFdXYK4-QNtpF1LwcPaRJWmCCOGA" alt="Bài tập bổ sung hóa 9 bài 17 năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/bai-tap-bo-sung-hoa-9-bai-17-nam-2024">Bài tập bổ sung hóa 9 bài 17 năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Khỏe Đẹp" class="tag-link">Khỏe Đẹp</a>
                                        <a href="/tags/Bài tập" class="tag-link">Bài tập</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/khac-phuc-loi-khi-cai-dat-arcgis-93-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/3PcsTxx8l70/hqdefault.jpg?sqp=-oaymwEjCOADEI4CSFryq4qpAxUIARUAAAAAGAElAADIQj0AgKJDeAE=&rs=AOn4CLBm84fsLrJtq7KgJg-EHLFceWbdkQ" alt="Khắc phục lỗi khi cài đặt arcgis 9.3 năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/khac-phuc-loi-khi-cai-dat-arcgis-93-nam-2024">Khắc phục lỗi khi cài đặt arcgis 9.3 năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/tai-sao-nap-top-khong-bat-duoc-wifi-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/ubriXt3Ezyg/hq720.jpg?sqp=-oaymwEXCNAFEJQDSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLDpoqHjIS7bgr4TQEnofvgUyvoK4A" alt="Tại sao nap top không bắt được wifi năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/tai-sao-nap-top-khong-bat-duoc-wifi-nam-2024">Tại sao nap top không bắt được wifi năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Hỏi Đáp" class="tag-link">Hỏi Đáp</a>
                                        <a href="/tags/Tại sao" class="tag-link">Tại sao</a>
                                        <a href="/tags/Top List" class="tag-link">Top List</a>
                                        <a href="/tags/Top" class="tag-link">Top</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/ta-mot-lan-em-mac-loi-voi-me-facebook-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/kD7rJAq9vS0/hq720.jpg?sqp=-oaymwEXCNAFEJQDSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLDDVEvUWfwozwti9uO-mfhQt3FMHw" alt="Tả một lần em mắc lỗi với mẹ facebook năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/ta-mot-lan-em-mac-loi-voi-me-facebook-nam-2024">Tả một lần em mắc lỗi với mẹ facebook năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Công Nghệ" class="tag-link">Công Nghệ</a>
                                        <a href="/tags/Facebook" class="tag-link">Facebook</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/cac-bai-toan-rut-gon-bieu-thuc-lop-9-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/qfud-xLz50s/hq720.jpg?sqp=-oaymwEXCNAFEJQDSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLA_BbJi2PoGyqPPoKrYRtSLoUm4BQ" alt="Các bài toán rút gọn biểu thức lớp 9 năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/cac-bai-toan-rut-gon-bieu-thuc-lop-9-nam-2024">Các bài toán rút gọn biểu thức lớp 9 năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/ban-van-phong-hinhf-chu-l-dai-2m-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/zvtFVTibOkY/hq720.jpg?sqp=-oaymwEXCNAFEJQDSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLA0f10nlDoburOfUwpSeJXhwCsUqg" alt="Bàn văn phòng hinhf chữ l dài 2m năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/ban-van-phong-hinhf-chu-l-dai-2m-nam-2024">Bàn văn phòng hinhf chữ l dài 2m năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/bai-tap-trac-nghiem-dia-ly-10-bai-36-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/5aKj5vRzDRo/hqdefault.jpg?sqp=-oaymwEjCOADEI4CSFryq4qpAxUIARUAAAAAGAElAADIQj0AgKJDeAE=&rs=AOn4CLD2gEBplUpSvDMTrUvq1wepQkx1qQ" alt="Bài tập trắc nghiệm địa lý 10 bài 36 năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/bai-tap-trac-nghiem-dia-ly-10-bai-36-nam-2024">Bài tập trắc nghiệm địa lý 10 bài 36 năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Khỏe Đẹp" class="tag-link">Khỏe Đẹp</a>
                                        <a href="/tags/Bài tập" class="tag-link">Bài tập</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/hinh-thuc-rua-tien-la-nhu-the-nao-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/-sQwDcDqdLw/hq720.jpg?sqp=-oaymwEXCNAFEJQDSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLDuhqxiPb5cheBPQOfQeSwx5fWFBw" alt="Hình thức rửa tiền là như thế nào năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/hinh-thuc-rua-tien-la-nhu-the-nao-nam-2024">Hình thức rửa tiền là như thế nào năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Hỏi Đáp" class="tag-link">Hỏi Đáp</a>
                                        <a href="/tags/Thế nào" class="tag-link">Thế nào</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/phim-cung-duong-toi-loi-tap-23-vtv3-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/NgVQwQpf4Mk/hq720.jpg?sqp=-oaymwEXCNAFEJQDSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLC7HRS7dAX-g7TGauhca2NAYfZ2Tg" alt="Phim cung đường tội lỗi tập 23 vtv3 năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/phim-cung-duong-toi-loi-tap-23-vtv3-nam-2024">Phim cung đường tội lỗi tập 23 vtv3 năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Phim" class="tag-link">Phim</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	<div class="media media-card  rounded-0 shadow-none mb-0 bg-transparent py-4 px-0 border-bottom border-bottom-gray">
    <div class="media-image">
       <a href="/bai-tap-gioi-han-ham-so-trang-132-bai-1-nam-2024"><img src="/dist/images/waiting.svg" width="200px" height="100px"  data-orgimg="https://i.ytimg.com/vi/l47s37epYSY/hqdefault.jpg?sqp=-oaymwEjCOADEI4CSFryq4qpAxUIARUAAAAAGAElAADIQj0AgKJDeAE=&rs=AOn4CLB7haSkyJ1EOOjLa2Ia62tvu-xr3g" alt="Bài tập giới hạn hàm số trang 132 bài 1 năm 2024"></a>
    </div>
    <div class="media-body">
        <h5 class="mb-2 fw-medium"><a href="/bai-tap-gioi-han-ham-so-trang-132-bai-1-nam-2024">Bài tập giới hạn hàm số trang 132 bài 1 năm 2024</a></h5>
        <p class="mb-2 truncate lh-20 fs-15"></p>
        <div class="media media-card questionTags user-media px-0 border-bottom-0 pb-0">
            <div class="tags">
                                    <a href="/tags/mẹo hay" class="tag-link">mẹo hay</a>
                                        <a href="/tags/Khỏe Đẹp" class="tag-link">Khỏe Đẹp</a>
                                        <a href="/tags/Bài tập" class="tag-link">Bài tập</a>
                                </div>

        </div>
    </div>
</div><!-- end media -->
	

</div>
</div></div>
					</div>
                   
                </div>    
                </div><!-- end question-main-bar -->
            </div><!-- end col-lg-9 -->
            <div class="postContentRight">
                <div class="sidebar">
					<div class="ad-card">
    <h4 class="text-gray text-uppercase fs-13 pb-3 text-center">Quảng Cáo</h4>
    <div class="mb-4 mx-auto" style="text-align:center">
      <ins class="adsbygoogle"
     style="display:block"
     data-ad-client="ca-pub-4987931798153631"
     data-ad-slot="8742637402"
     data-ad-format="auto"
     data-full-width-responsive="true">
	 </ins>
<script>
     (adsbygoogle = window.adsbygoogle || []).push({});
</script>
    </div>
</div>
                    <div class="card card-item">
    <div class="card-body">
        <h3 class="fs-17 pb-3">Có thể bạn quan tâm</h3>
        <div class="divider"><span></span></div>
        <div class="sidebar-questions pt-3">
                        <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/uong-ngu-coc-luc-nao-la-tot-nhat-nam-2024">Uống ngũ cốc lúc nào là tốt nhất năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">4 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/ChilledSkate" class="author">ChilledSkate</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/tre-rung-toc-hinh-vanh-khan-la-nhu-the-nao-nam-2024">Trẻ rụng tóc hình vành khăn là như thế nào năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">4 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/KeenRocks" class="author">KeenRocks</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/xu-ly-loi-dau-cach-khi-go-dau-tieng-viet-nam-2024">Xử lý lỗi dấu cách khi gõ dấu tiếng việt năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">4 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/BrownHardship" class="author">BrownHardship</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/bo-de-xet-tuyen-vien-chuc-ke-toan-nam-2024">Bộ đề xét tuyển viên chức kế toán năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">4 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/ExperimentalConflict" class="author">ExperimentalConflict</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/chi-phi-tham-tra-quyet-toan-du-an-hoan-thanh-nam-2024">Chi phi thẩm tra quyết toán dự an hoàn thành năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">5 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/DrollMechanics" class="author">DrollMechanics</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/giai-bai-tap-vat-ly-8-bai-21-nam-2024">Giải bài tập vật lý 8 bài 21 năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">5 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/IntegralPueblo" class="author">IntegralPueblo</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/lien-minh-huyen-thoai-ve-viet-nam-nam-nao-nam-2024">Liên minh huyền thoại về việt nam năm nào năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">5 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/HashishTendency" class="author">HashishTendency</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/di-kham-nghia-vu-quan-su-nhu-the-nao-nam-2024">Đi khám nghĩa vụ quân sự như thế nào năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">5 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/DisruptiveTyrant" class="author">DisruptiveTyrant</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/de-thi-hoc-sinh-gioi-hoa-9-cap-tinh-2010-2023-nam-2024">Đề thi học sinh giỏi hóa 9 cấp tỉnh 2010-2023 năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">5 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/CharitableVicinity" class="author">CharitableVicinity</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/co-dang-cay-nao-buon-hon-ngay-minh-xa-nhau-nam-2024">Có đắng cay nào buồn hơn ngày mình xa nhau năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">5 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/FictitiousArtisan" class="author">FictitiousArtisan</a>
                    </small>
                </div>
            </div><!-- end media -->
			        </div><!-- end sidebar-questions -->
    </div>
</div><!-- end card -->
                    <div class="card card-item cardTopList">
    <div class="card-body">
        <h3 class="fs-17 pb-3">Toplist được quan tâm</h3>
        <div class="divider"><span></span></div>
        <div class="sidebar-questions pt-3">

                        <div class="media media-card media--card media--card-2">
				<div class="topListNum">#1</div>
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/toplist-top-9-review-kem-chong-nang-cho-ba-bau-2023">Top 9 review kem chống nắng cho bà bầu 2023</a></h5>
                    <small class="meta text-right">7 tháng trước</small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				<div class="topListNum">#2</div>
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/toplist-top-5-tieng-anh-lop-2-unit-7-trang-46-2023">Top 5 tiếng anh lớp 2 unit 7 trang 46 2023</a></h5>
                    <small class="meta text-right">7 tháng trước</small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				<div class="topListNum">#3</div>
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/toplist-top-10-tai-mau-the-nhan-vien-tren-excel-2023">Top 10 tải: mẫu the nhân viên trên excel 2023</a></h5>
                    <small class="meta text-right">7 tháng trước</small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				<div class="topListNum">#4</div>
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/toplist-top-7-tuyen-dung-nhan-vien-chot-don-tai-nha-2023">Top 7 tuyển dụng nhân viên chốt đơn tại nhà 2023</a></h5>
                    <small class="meta text-right">7 tháng trước</small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				<div class="topListNum">#5</div>
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/toplist-top-7-mau-nha-2-tang-chu-l-100m2-mai-bang-2023">Top 7 mẫu nhà 2 tầng chữ l 100m2 mái bằng 2023</a></h5>
                    <small class="meta text-right">7 tháng trước</small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				<div class="topListNum">#6</div>
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/toplist-top-4-truyen-ngan-ve-que-huong-lop-2-2023">Top 4 truyện ngắn về quê hương lớp 2 2023</a></h5>
                    <small class="meta text-right">7 tháng trước</small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				<div class="topListNum">#7</div>
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/toplist-top-6-so-do-bo-may-nha-nuoc-thoi-ho-2023">Top 6 sơ đồ bộ máy nhà nước thời hồ 2023</a></h5>
                    <small class="meta text-right">7 tháng trước</small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				<div class="topListNum">#8</div>
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/toplist-top-8-truoc-viec-nhat-dao-chinh-phap-dang-ta-co-chu-truong-gi-moi-2023">Top 8 trước việc nhật đảo chính pháp, đảng ta có chủ trương gì mới 2023</a></h5>
                    <small class="meta text-right">7 tháng trước</small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
				<div class="topListNum">#9</div>
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/toplist-top-7-dan-so-dong-da-dem-den-cho-nuoc-ta-2023">Top 7 dân số đông đã đem đến cho nước ta 2023</a></h5>
                    <small class="meta text-right">7 tháng trước</small>
                </div>
            </div><!-- end media -->
			            
        </div><!-- end sidebar-questions -->
    </div>
</div><!-- end card -->
					<div class="ad-card">
    <h4 class="text-gray text-uppercase fs-14 pb-3 pb-3 text-center">Quảng cáo</h4>
    <div class="mb-4 mx-auto">
      <ins class="adsbygoogle"
     style="display:inline-block;width:300px;height:600px"
     data-ad-client="ca-pub-"
     data-ad-slot=""
     data-ad-format="auto"
     data-full-width-responsive="true"></ins>
<script>
     (adsbygoogle = window.adsbygoogle || []).push({});
</script>
    </div>
</div>
                    
<div class="card card-item">
    <div class="card-body">
        <h3 class="fs-17 pb-3">Xem Nhiều</h3>
        <div class="divider"><span></span></div>
        <div class="sidebar-questions pt-3">

                        <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/castlevania-lords-of-shadow-2-viet-hoa-fshare-nam-2024">Castlevania lords of shadow 2 việt hóa fshare năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">1 tuần trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/MasterfulMailing" class="author">MasterfulMailing</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/dat-ban-tho-ong-tao-nhu-the-nao-nam-2024">Đặt bàn thờ ông táo như thế nào năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">4 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/FuturisticPatriotism" class="author">FuturisticPatriotism</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/cach-fix-loi-ko-vao-tran-dc-lol-nam-2024">Cach fix lỗi ko vào trân dc lol năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">1 tuần trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/UntimelyCelebrity" class="author">UntimelyCelebrity</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/bai-tap-tieng-anh-luu-hoang-tri-lop-8-violet-nam-2024">Bài tập tiếng anh lưu hoằng trí lớp 8 violet năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">1 tuần trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/Off-dutyLiner" class="author">Off-dutyLiner</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/bi-loi-khong-thanh-hoa-trong-word-2023-nam-2024">Bị lỗi không thành hoa trong word 2023 năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">5 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/DenseSnark" class="author">DenseSnark</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/nen-dung-bien-phap-tranh-thai-nao-sau-sinh-nam-2024">Nên dùng biện pháp tránh thai nào sau sinh năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">1 tuần trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/GleamingTransmitter" class="author">GleamingTransmitter</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/cai-dat-phuong-thuc-thanh-toan-website-wordpress-nam-2024">Cai đặt phương thức thanh toán website wordpress năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">1 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/MarshyTights" class="author">MarshyTights</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/loi-khong-dang-nhap-duoc-dong-bo-hoa-coccoc-nam-2024">Lỗi không đang nhập được đồng bộ hóa coccoc năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">4 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/OccupiedCross-examination" class="author">OccupiedCross-examination</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/chua-thoai-hoa-xuong-khop-cua-do-ducs-ngocj-nam-2024">Chữa thoái hóa xương khớp của đỗ đưcs ngocj năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">2 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/AffectedHacker" class="author">AffectedHacker</a>
                    </small>
                </div>
            </div><!-- end media -->
			            <div class="media media-card media--card media--card-2">
                <div class="media-body">
                    <h5><a href="https://ancanmarketing.com/tim-loi-sai-eggs-are-taken-to-the-maket-fridays-nam-2024">Tìm lỗi sai eggs are taken to the mảket fridays năm 2024</a></h5>
                    <small class="meta">
                        <span class="pr-1">4 ngày trước</span>
                        <span class="pr-1">. bởi</span>
                        <a href="https://ancanmarketing.com/author/BluntKangaroo" class="author">BluntKangaroo</a>
                    </small>
                </div>
            </div><!-- end media -->
			            
        </div><!-- end sidebar-questions -->
    </div>
</div><!-- end card -->					<div class="ad-card">
    <h4 class="text-gray text-uppercase fs-14 pb-3 pb-3 text-center">Quảng cáo</h4>
    <div class="mb-4 mx-auto" style=" text-align: center">
<div id='div-gpt-ad-1657246837997-0' style='min-width: 300px; min-height: 600px;'>
  <script>
    googletag.cmd.push(function() { googletag.display('div-gpt-ad-1657246837997-0'); });
  </script>
</div>
	  
    </div>
</div>
                    										
					
			
                   
                </div><!-- end sidebar -->
            </div><!-- end col-lg-3 -->
        </div><!-- end row -->
    </div><!-- end container -->
</section><!-- end question-area -->

<!-- ================================
         END QUESTION AREA
================================= -->
<script>var questionId ='quet-web-html-la-gi'</script>
<script>var postTime ='2022-12-31T15:20:30.428Z'</script>
<script>var siteDomain ='ancanmarketing.com'</script>
<script type="text/javascript" src="https://ancanmarketing.com/dist/js/pages/comment.js"></script>

<!-- ================================
         END FOOTER AREA
================================= -->
<section class="footer-area pt-80px bg-dark position-relative">
    <span class="vertical-bar-shape vertical-bar-shape-1"></span>
    <span class="vertical-bar-shape vertical-bar-shape-2"></span>
    <span class="vertical-bar-shape vertical-bar-shape-3"></span>
    <span class="vertical-bar-shape vertical-bar-shape-4"></span>
    <div class="container">
        <div class="row">
            <div class="col-lg-3 responsive-column-half">
                <div class="footer-item">
                    <h3 class="fs-18 fw-bold pb-2 text-white">Chúng tôi</h3>
                    <ul class="generic-list-item generic-list-item-hover-underline pt-3 generic-list-item-white">
                        <li><a href="/about.html">Giới thiệu</a></li>
                        <li><a href="/contact.html">Liên hệ</a></li>
                        <li><a href="/contact.html">Tuyển dụng</a></li>
                        <li><a href="/contact.html">Quảng cáo</a></li>
                    </ul>
                </div><!-- end footer-item -->
            </div><!-- end col-lg-3 -->
            <div class="col-lg-3 responsive-column-half">
                <div class="footer-item">
                    <h3 class="fs-18 fw-bold pb-2 text-white">Điều khoản</h3>
                    <ul class="generic-list-item generic-list-item-hover-underline pt-3 generic-list-item-white">
                        <li><a href="/privacy-statement.html">Điều khoản hoạt động</a></li>
                        <li><a href="/terms-and-conditions.html">Điều kiện tham gia</a></li>
                        <li><a href="/privacy-statement.html">Quy định cookie</a></li>
                    </ul>
                </div><!-- end footer-item -->
            </div><!-- end col-lg-3 -->
            <div class="col-lg-3 responsive-column-half">
                <div class="footer-item">
                    <h3 class="fs-18 fw-bold pb-2 text-white">Trợ giúp</h3>
                    <ul class="generic-list-item generic-list-item-hover-underline pt-3 generic-list-item-white">
                        <li><a href="/contact.html">Hướng dẫn</a></li>
                        <li><a href="/contact.html">Loại bỏ câu hỏi</a></li>
                        <li><a href="/contact.html">Liên hệ</a></li>
                    </ul>
                </div><!-- end footer-item -->
            </div><!-- end col-lg-3 -->
            <div class="col-lg-3 responsive-column-half">
                <div class="footer-item">
                    <h3 class="fs-18 fw-bold pb-2 text-white">Mạng xã hội</h3>
                    <ul class="generic-list-item generic-list-item-hover-underline pt-3 generic-list-item-white">
                        <li><a href="#"><i class="fab fa-facebook-f mr-1"></i> Facebook</a></li>
                        <li><a href="#"><i class="fab fa-twitter mr-1"></i> Twitter</a></li>
                        <li><a href="#"><i class="fab fa-linkedin mr-1"></i> LinkedIn</a></li>
                        <li><a href="#"><i class="fab fa-instagram mr-1"></i> Instagram</a></li>
                    </ul>
                </div><!-- end footer-item -->
            </div><!-- end col-lg-3 -->
        </div><!-- end row -->
    </div><!-- end container -->
    <hr class="border-top-gray my-5">
    <div class="container">
        <div class="row align-items-center pb-4 copyright-wrap">
           
            <div class="col-6">
               <a href="//www.dmca.com/Protection/Status.aspx?ID=33e5dca6-f8c5-4c6f-b8e6-a247229d2953" title="DMCA.com Protection Status" class="dmca-badge"> <img src ="https://images.dmca.com/Badges/dmca_protected_sml_120am.png?ID=33e5dca6-f8c5-4c6f-b8e6-a247229d2953"  width="123px" height="21px" alt="DMCA.com Protection Status" /></a>  <script src="https://images.dmca.com/Badges/DMCABadgeHelper.min.js"> </script>
            </div>
			<!-- end col-lg-6 --><div class="col-6">
				
                <div class="copyright-desc text-right fs-14">
					<div>Bản quyền © 2021 <a href="https://ancanmarketing.com"><strong style="font-size:18px;color:#ff0000">Marketing</strong><strong style="font-size:18px">Blog</strong></a> Inc.</div>
				</div>
            </div><!-- end col-lg-6 -->
        </div><!-- end row -->
    </div><!-- end container -->
</section><!-- end footer-area -->

<!-- ================================
          END FOOTER AREA
================================= --><script>
  $( document ).ready(function() {
    setTimeout(showMoreButton, 3000);
    function showMoreButton(){
      let minheight = 1000;
      minheight = parseInt($("#entryContent").innerHeight())/3;
      $("#entryContent").css('min-height', minheight).css('max-height', minheight).css('overflow', 'hidden');
      $("#readmore_content").click(function(){
        $("#entryContent").css('min-height', '').css('max-height', '').css('overflow', '');
        $(".readmore_content_exists").css('display', 'none');
      })
    }
});
</script>

<!-- template js files -->
<!-- start back to top -->
<div id="back-to-top" data-toggle="tooltip" data-placement="top" title="Lên đầu trang">
    <img alt="" src="/dist/images/svg/arrow-up_20.svg">
</div>
<!-- end back to top -->
<script src="https://ancanmarketing.com/dist/js/bootstrap.bundle.min.js"></script>
<script src="https://ancanmarketing.com/dist/js/moment.js"></script>
<script src="https://ancanmarketing.com/dist/js/read-more.min.js"></script>
<script src="https://ancanmarketing.com/dist/js/main.js?v=6"></script>
<!-- Google Tag Manager (noscript) -->

<script type="text/javascript">
    (function(c,l,a,r,i,t,y){
        c[a]=c[a]||function(){(c[a].q=c[a].q||[]).push(arguments)};
        t=l.createElement(r);t.async=1;t.src="https://www.clarity.ms/tag/"+i;
        y=l.getElementsByTagName(r)[0];y.parentNode.insertBefore(t,y);
    })(window, document, "clarity", "script", "jxuz46z39u");
</script>

</body>
</html> 

<script src="/cdn-cgi/scripts/7d0fa10a/cloudflare-static/rocket-loader.min.js" data-cf-settings="dd1abbe65bc2c65b2e7c520c-|49" defer></script>