Tìm kiếm văn bản trong mã HTML của trang web

Hướng dẫn này cung cấp hướng dẫn từng bước về cách tìm kiếm một trang web cho một từ, cụm từ hoặc chuỗi văn bản và tìm mọi trang xuất hiện trên đó

Sitebulb có một tính năng gọi là 'Tìm kiếm nội dung', cho phép bạn định cấu hình trình thu thập dữ liệu để tìm kiếm một trang web cho một từ hoặc cụm từ cụ thể trên mọi trang mà nó thu thập dữ liệu

Điều này cho phép bạn lọc các trang dựa trên việc chúng có chứa một số từ nhất định hay không

Ví dụ

  • Kiểm tra xem các trang sản phẩm thương mại điện tử có chứa thông báo 'hết hàng' không
  • Kiểm tra những trang nào tham chiếu đến tên thương hiệu hoặc tên công ty cụ thể
  • Hiểu những trang nào đề cập đến các từ khóa mục tiêu nhất định [để xây dựng liên kết nội bộ]

Mục lục

Hướng dẫn này trình bày toàn bộ quá trình thiết lập tìm kiếm nội dung trong Sitebulb, bao gồm tất cả các cài đặt nâng cao

Bạn có thể chuyển đến một khu vực cụ thể của hướng dẫn bằng cách sử dụng các liên kết bên dưới

Thêm tìm kiếm nội dung vào quá trình kiểm tra trang web của bạn

Để bắt đầu, chỉ cần bắt đầu kiểm tra mới và từ các tùy chọn thiết lập, cuộn xuống Trích xuất và nhấp để mở tùy chọn Tìm kiếm nội dung

Sau đó nhấp vào nút ở trên cùng để bật Tìm kiếm nội dung rồi nhấp vào nút Thêm quy tắc màu xanh lá cây

Thao tác này sẽ mở trình hướng dẫn quy tắc trên màn hình. Đối với một tìm kiếm cơ bản, tất cả những gì bạn cần làm là nhập văn bản và nhấn 'Thêm quy tắc', và đó là tất cả những gì cần làm. Bây giờ bạn đã sẵn sàng để tìm kiếm trang web của mình cho từ này, bất kể nó có thể là gì

Khi bạn đã thêm quy tắc của mình, bạn có thể dừng ở đó hoặc tiếp tục thêm các quy tắc khác. Bạn sẽ thấy tất cả các quy tắc của mình trong trang thiết lập kiểm tra, sẵn sàng để bạn bắt đầu kiểm tra

Ví dụ: nếu chúng tôi muốn thu thập dữ liệu trang web của mình và hiểu tần suất chúng tôi tham chiếu Sitebulb với tư cách là 'trình thu thập thông tin' so với 'người kiểm tra trang web', thì chúng tôi có thể thiết lập nó như thế này

Với giấy phép Sitebulb Pro, không có giới hạn về số lượng quy tắc bạn có thể thêm, vì vậy hãy thu thập tất cả dữ liệu bạn cần [với giấy phép Lite có giới hạn là 3 quy tắc]

Sau khi bạn hoàn tất việc thêm quy tắc và bất kỳ cấu hình thiết lập kiểm tra nào khác, hãy nhấn Bắt đầu ngay ở dưới cùng bên phải của màn hình để bắt đầu kiểm tra

Khi quá trình kiểm tra của bạn hoàn tất, bạn có thể truy cập báo cáo dữ liệu bằng menu bên trái

Phần Tổng quan sẽ hiển thị cho bạn thông tin chi tiết về tổng dữ liệu cho từng cụm từ tìm kiếm khác nhau

Hai cột dữ liệu cho bạn biết những điều hơi khác nhau

  • Total Found = tổng số trường hợp mà Sitebulb tìm thấy cụm từ, ngay cả khi một số trong số chúng nằm trên cùng một trang
  • Found on URLs = số URL duy nhất mà Sitebulb tìm thấy cụm từ trên

Thậm chí không cần phân tích dữ liệu một cách chi tiết, chúng ta đã có thể thấy rằng 'trình thu thập thông tin' đang chiếm ưu thế

Để xem chi tiết về các URL cụ thể, chúng ta cần chuyển sang tab URL, hiển thị các URL bên cạnh các cột được đứng đầu bởi bộ lọc văn bản/cụm từ. Các số trong mỗi ô liên quan đến số lượng cụm từ được tìm thấy trên mỗi trang

Chúng tôi có thể nhanh chóng sắp xếp dữ liệu này bằng cách nhấp vào tiêu đề cột cho bất kỳ cụm từ tìm kiếm nào mà chúng tôi muốn sắp xếp theo

Như mọi khi với Danh sách URL, bạn có thể thêm hoặc xóa các cột để có thể dễ dàng kết hợp dữ liệu thu thập thông tin kỹ thuật với dữ liệu được trích xuất của mình. Bạn cũng có thể tạo các bộ lọc trên dữ liệu để có thêm thông tin chi tiết

Đó là thiết lập cơ bản và quy trình đơn giản này sẽ cho phép bạn dễ dàng thiết lập tìm kiếm nội dung và xem dữ liệu trong kết quả của mình

Cài đặt cơ bản - các tùy chọn khác

Quy trình nêu trên phù hợp với hầu hết các trường hợp sử dụng tìm kiếm nội dung đơn giản. Tuy nhiên, có một số cài đặt bổ sung mà chúng tôi chưa khám phá

Hình ảnh bên dưới hiển thị thiết lập mặc định, với cụm từ tìm kiếm mẫu

Hãy tìm hiểu ý nghĩa của từng tùy chọn một cách chi tiết hơn

  • Từ hoặc văn bản cần Tìm - Đây là cụm từ mà Sitebulb sẽ tìm kiếm khi thu thập dữ liệu từng URL hoặc trang trên trang web của bạn. Nó sử dụng đối sánh cụm từ, vì vậy, ví dụ trên sẽ khớp với chuỗi như 'kính trượt tuyết tốt nhất' chứ không phải trên chuỗi như 'kính trượt tuyết hoặc trượt tuyết tốt nhất'
  • Bỏ qua trường hợp - Khá tự giải thích. Nếu được chọn, Sitebulb sẽ khớp trên một chuỗi như 'Kính trượt tuyết' hoặc 'Kính SKI'. ' Không được chọn, nó sẽ không khớp với một trong hai ví dụ này, chỉ trên chữ thường 'kính trượt tuyết'. '
  • Phần tử để tìm kiếm - Chọn từ danh sách thả xuống để chọn phần tử HTML mà Sitebulb sẽ tìm kiếm. Mặc định của 'Tất cả các phần tử html' là tốt cho hầu hết các trường hợp, nhưng chúng tôi sẽ khám phá một số ví dụ khác bên dưới
  • Tìm kiếm trong - Các tùy chọn ở đây là 'Chỉ văn bản' hoặc 'HTML và Văn bản. ' Tùy chọn 'Chỉ Văn bản' sẽ chỉ tìm kiếm văn bản hiển thị trên trang, trong khi tùy chọn 'HTML và Văn bản' cũng sẽ tìm kiếm trong HTML [e. g. mô tả meta]

Hầu hết các tùy chọn này đều khá trực quan và/hoặc đơn giản để bạn tự kiểm tra và xác minh. Tuy nhiên, tùy chọn 'Phần tử để tìm kiếm' có nhiều sắc thái hơn và cần giải thích thêm một chút.  

Phần tử để tìm kiếm - giải thích

Để bắt đầu, có một số tùy chọn trong danh sách thả xuống

Tất cả những tùy chọn này đề cập đến cấu trúc HTML của trang web

Vì vậy, tùy chọn mặc định 'Tất cả các tùy chọn html' sẽ tìm kiếm toàn bộ phần màu xanh lá cây từ hình trên. Bạn có thể chọn chỉ tìm kiếm trong hoặc [các phần màu xanh hoặc vàng] hoặc cách khác là 'Trong nhưng không'

Tùy chọn cụ thể này có nghĩa là Sitebulb sẽ chỉ tìm kiếm trong phần [màu vàng], nhưng nó sẽ không bao gồm bất kỳ phần tử neo [] nào. Nói cách khác, tìm kiếm nội dung cơ thể nhưng không bao gồm bất kỳ liên kết nào

Ví dụ: giả sử chúng tôi muốn trỏ thêm một số liên kết nội bộ vào trang thu thập dữ liệu JavaScript của chúng tôi. Nếu chúng tôi tìm kiếm cụm từ 'thu thập dữ liệu javascript' trong toàn bộ hoặc toàn bộ , điều này sẽ bắt được tất cả các liên kết trong bảng điều hướng trên cùng của chúng tôi

Vì vậy, theo nghĩa đen, mỗi trang sẽ được gắn cờ. Không hữu ích chút nào

Nhưng nếu thay vào đó, chúng tôi chọn ' but not ' thì điều này sẽ chỉ chọn các trường hợp có cụm từ trong các phần tử không liên kết

Thực sự rất hữu ích

Và cuối cùng, chúng tôi có tùy chọn dưới cùng từ danh sách thả xuống. 'Một yếu tố cụ thể'. Khi bạn chọn mục này, một hộp mới sẽ xuất hiện bên dưới, hộp này yêu cầu bạn nhập bộ chọn CSS xác định thành phần cụ thể mà bạn muốn cạo. Ví dụ

Nói chung, đây nên được coi là một tùy chọn nâng cao - nếu bạn không biết bộ chọn CSS là gì thì chỉ cần tránh tùy chọn này và gắn bó với các tùy chọn khác, chúng là quá đủ cho hầu hết các trường hợp sử dụng

Bộ chọn CSS cho phép bạn chọn một phần cụ thể từ mẫu trang. Hãy xem xét một trang sản phẩm thương mại điện tử điển hình, tôi có thể chỉ quan tâm đến việc tìm kiếm phần 'văn bản nội dung' của trang - không phải các thành phần điều hướng hoặc bản sao soạn sẵn

Vì vậy, tôi cần chọn bộ chọn xác định điều này, mà tôi có thể thực hiện bằng cách sử dụng tính năng 'Kiểm tra' trong Chrome

Vì vậy, trong trường hợp này, tôi có thể thấy rằng người kiểm tra mà tôi cần là. div. sản-phẩm-mô-tả-nội-dung

Bằng cách đánh dấu bộ chọn này trong DevTools và cuộn trang xuống, tôi có thể thấy rằng nó phân chia trang một cách gọn gàng để chỉ chọn ra phần mô tả sản phẩm và tránh những thứ lộn xộn như 'Bản in nhỏ' mà tôi không hứng thú tìm kiếm

Để rõ ràng, đây là cách tôi sẽ thiết lập quy tắc trong Sitebulb

Thêm nhiều quy tắc tìm kiếm hàng loạt

Nếu bạn có RẤT NHIỀU từ/cụm từ muốn tìm kiếm, hãy sử dụng nút 'Thêm nhiều quy tắc' để thêm chúng hàng loạt.  

Chỉ cần viết các từ/cụm từ của bạn, mỗi từ một dòng hoặc chỉ cần sao chép/dán vào hộp. Nó hoạt động chính xác như cấu hình 'Cơ bản' duy nhất ở trên, ngoại trừ nhiều từ hoặc cụm từ. Vì vậy, bạn vẫn có thể định cấu hình các mẫu loại trừ URL, phần tử nào cần tìm kiếm và liệu bạn có tìm kiếm trong văn bản và HTML hay chỉ văn bản

Vì vậy, điều này không cung cấp cho bạn mức độ chi tiết để định cấu hình từng từ khác nhau, nhưng cho phép bạn tải lên hàng loạt hàng trăm hoặc hàng nghìn cụm từ cùng một lúc. Điều này có thể thực sự hữu ích nếu bạn đang tìm cách xác định các trang có chứa bất kỳ một trong danh sách từ khóa

Khi báo cáo hoàn tất, từng quy tắc sẽ hiển thị như thể bạn đã nhập từng quy tắc một

Một lưu ý trên quy mô

Với tính năng này, bạn có thể kết xuất hàng nghìn từ cùng một lúc. Xin lưu ý rằng nếu bạn thực hiện việc này, thì cách tốt nhất để truy cập dữ liệu là sử dụng nút Xuất tất cả dữ liệu tìm kiếm màu xanh lục mà bạn nhìn thấy trong hình trên. Bạn CÓ THỂ truy cập dữ liệu qua tab URL, nhưng nó sẽ chỉ tải 50 cột cùng một lúc, vì vậy bạn sẽ cần thực hiện nhiều thao tác thêm/xóa để xem những gì bạn muốn

Vì vậy, khuyến nghị của chúng tôi là sử dụng xuất thay thế

thiết lập nâng cao

Mọi thứ chúng tôi đã đề cập cho đến nay đều nằm trong thiết lập 'Cơ bản'. Về cơ bản, điều này có nghĩa là chúng tôi đang yêu cầu Sitebulb tìm kiếm một từ hoặc cụm từ tại một thời điểm [thậm chí thông qua phương pháp 'tải lên hàng loạt']

Nhưng cũng có tùy chọn 'Nâng cao', trên cửa sổ 'Thêm quy tắc' duy nhất

Đây là thỏa thuận - bạn có thể thiết lập từng quy tắc là 'Cơ bản' hoặc bạn thiết lập quy tắc đó là 'Nâng cao'. Đây không phải là tình huống mà bạn thiết lập những thứ cơ bản, sau đó đi và thêm một số tùy chọn nâng cao. Như vậy, có một số yếu tố quen thuộc hoạt động giống hệt như mô tả ở trên cho các tùy chọn Cơ bản. Và sau đó có một số thứ mới

Vì vậy, chúng tôi sẽ không che phủ nền cũ bằng các bit dưới cùng nữa, vui lòng chỉ tham khảo phần ở trên để giải thích cách thức hoạt động của tất cả

Chúng tôi quan tâm đến bit này

Khái niệm này tương đối đơn giản, chúng tôi đang thay thế 'từ/cụm từ' bằng tổ hợp các từ để tìm kiếm. Yêu cầu cung cấp 'Tên quy tắc' chỉ đơn giản là để giúp xem kết quả trong báo cáo dễ dàng hơn

Hãy làm việc thông qua một ví dụ. Hãy tưởng tượng chúng ta đang kiểm tra một trang web du lịch. Chúng tôi muốn xác định các trang nói về các môn thể thao mùa đông cụ thể, vì vậy chúng tôi có thể thiết lập nó như thế này

Khi quy tắc này được áp dụng, Sitebulb sẽ tìm kiếm bất kỳ trang nào có chứa 'trượt tuyết', 'trượt ván trên tuyết' hoặc 'trượt băng' [hoặc bất kỳ sự kết hợp nào của cả ba]

Khi chúng tôi xem kết quả, bạn có thể thấy giá trị khi thêm tên quy tắc

Trong trường hợp này, các số được trả về trong cột 'Thể thao mùa đông' phản ánh tổng số trận đấu. Vì vậy, kết quả của '6' có thể có nghĩa là 'trượt tuyết' được đề cập 4 lần, 'trượt tuyết' 2 lần và 'trượt băng' hoàn toàn không

Bây giờ, hãy tưởng tượng chúng tôi muốn xác định các trang nói về các môn thể thao mùa đông cụ thể, nhưng chỉ dành cho một số quốc gia nhất định. Chúng tôi có thể loại trừ các quốc gia cụ thể bằng cách thêm chúng vào hộp 'không chứa' bên tay phải, e. g

Khi quy tắc này được áp dụng, Sitebulb sẽ tìm kiếm bất kỳ trang nào có chứa 'trượt tuyết', 'trượt ván trên tuyết' hoặc 'trượt băng' [hoặc bất kỳ sự kết hợp nào của cả ba] VÀ CŨNG KHÔNG chứa 'Pháp', 'Tây Ban Nha', 'Ý . '

Điều này làm hiển thị các trang về Hoa Kỳ/Canada thay vì Châu Âu, như chúng tôi muốn

Sử dụng phương pháp kết hợp này cho phép bạn thực hiện những việc như phân loại các trang dựa trên chủ đề hoặc nhóm chúng dựa trên một bộ từ khóa mục tiêu - sau đó có thể được sử dụng để kiểm tra nội dung hoặc chiến lược liên kết nội bộ

kết hợp URL

Theo mặc định, Sitebulb sẽ thực hiện tìm kiếm nội dung trên từng trang trên trang web. Điều này có nghĩa là bạn đang yêu cầu Sitebulb thực hiện nhiều công việc hơn về mặt xử lý và điều đó có nghĩa là nhiều dữ liệu hơn sẽ được lưu trữ trên ổ cứng của bạn sau khi dữ liệu kiểm toán được thu thập

Đối với hầu hết các trang web - ví dụ: một trang web điển hình có 10.000 trang - không có vấn đề gì với điều này vì kích thước và quy mô của yêu cầu tài nguyên bổ sung là không đáng kể

Tuy nhiên, Sitebulb có thể xử lý các trang web có hàng triệu trang và ở quy mô như vậy, bạn có thể muốn xem xét việc giảm số lượng công việc xử lý mà Sitebulb đã thực hiện trong khi thu thập dữ liệu và có lẽ phù hợp hơn - quá trình kiểm tra sẽ chiếm bao nhiêu dung lượng trên trang web của bạn

Đây là mục đích của tab URL. Bạn có thể nhập các mẫu bao gồm hoặc loại trừ để Sitebulb sẽ chỉ thực hiện phân tích tìm kiếm nội dung trên các trang cụ thể

Thêm các mẫu loại trừ

Trở lại ví dụ trên trang web này, giả sử chúng ta muốn tìm các trang đề cập đến 'trình thu thập thông tin', nhưng chúng ta không muốn thực hiện tìm kiếm trên bất kỳ trang /documentation/ nào của mình [chẳng hạn như chính URL này], chúng ta sẽ nhập

Trong kết quả, các trang /documentation/ được liệt kê đơn giản là 'Chưa đặt', vì vậy bạn có thể phân biệt các số 0 hợp lệ với các trang mà Sitebulb đơn giản là không thực hiện tìm kiếm

Thêm các mẫu bao gồm

Chúng ta cũng có thể làm điều này theo một cách khác, bằng cách sử dụng các mẫu bao gồm thay thế. Có lẽ chúng tôi chỉ muốn kiểm tra từ trên các trang 'bán hàng' của chúng tôi trên trang web, chúng tôi có thể chọn chỉ thực hiện tìm kiếm trên các trang /product/ và /features/, bằng cách nhập các thư mục KHÔNG CÓ dấu trừ

Kết quả cho kết quả này cho thấy cách chúng tôi có thể tách biệt các trang mà chúng tôi thực sự quan tâm và dễ dàng phân biệt 'số 0 thực'

So khớp URL hoạt động cho quy tắc Cơ bản hoặc Nâng cao và có thể được xác định khác nhau cho mọi quy tắc bạn thêm - vì vậy bạn có thể nhận được thông tin cụ thể trong thiết lập của mình

Các trường hợp sử dụng và ví dụ

Ngoài các ví dụ đã được trình bày trong bài đăng này, chúng tôi cũng có một video hướng dẫn với một số ví dụ khác, giới thiệu một số tính năng và tùy chọn khác nhau trong tìm kiếm nội dung

Cảnh báo cuối cùng - thu thập thông tin bằng Chrome khi cần thiết

Điều cuối cùng cần chỉ ra là trên một số trang web, nội dung được tải qua JavaScript, điều đó có nghĩa là không thể xem nội dung này khi bạn thực hiện 'Xem nguồn'. '

Nếu bạn muốn hiểu rõ hơn tại sao điều này xảy ra, hãy xem hướng dẫn của chúng tôi về. Nhưng hiện tại, nếu trường hợp này xảy ra trên trang web bạn đang thu thập thông tin, bạn chỉ cần chuyển sang Trình thu thập dữ liệu Chrome trong cài đặt kiểm tra của mình và điều này sẽ đảm bảo rằng bạn có thể tìm kiếm trang web của mình theo cách mà Google nhìn thấy.

Làm cách nào để tìm kiếm văn bản trong HTML bằng JavaScript?

chức năng tìm kiếm[] {
tên var = tài liệu. getElementById["searchForm"]. phần tử ["searchItem"]. giá trị;
mẫu var = tên. toLowerCase[];
var targetId = "";
var div = tài liệu. getElementsByClassName["col-md-2"];
for [var i = 0; i < div. chiều dài;

Bạn có thể tạo một thanh tìm kiếm trong HTML không?

Bước 1. Đầu tiên, chúng ta phải nhập mã Html vào bất kỳ trình soạn thảo văn bản nào hoặc mở tệp Html hiện có trong trình soạn thảo văn bản mà chúng ta muốn sử dụng CSS và mã Html để tạo thanh tìm kiếm . Bước 2. Bây giờ, chúng ta phải đặt con trỏ tại điểm đó trong thẻ body nơi chúng ta muốn tạo thanh tìm kiếm.

Làm cách nào để triển khai chức năng tìm kiếm trong trang web HTML?

Sau đây là tóm tắt chung về các bước triển khai tính năng tìm kiếm. .
Mã hóa chuỗi tìm kiếm
Tạo biểu thức chính quy của mã thông báo
Xâu chuỗi các đối tượng sách
Tìm mã thông báo tìm kiếm trong các đối tượng sách được xâu chuỗi và tạo danh sách các đối tượng sách tìm thấy kết quả phù hợp
Hiển thị kết quả tìm kiếm

Chủ Đề