programming python

Làm cách nào để lấy URL từ chuỗi trong Python?

Bây giờ hãy xem ví dụ về cách tìm url từ chuỗi trong python. Chúng ta sẽ nói về trích xuất url từ chuỗi bằng cách sử dụng mô-đun biểu thức chính quy của python. Tôi sẽ chia sẻ với bạn cách trích xuất url từ chuỗi bằng python

Chúng tôi có thể lấy một tệp đầu vào có chứa một số URL và xử lý nó thông qua chương trình sau để trích xuất các URL

Ở đây tôi sẽ cung cấp cho bạn ví dụ đơn giản về cách trích xuất url từ chuỗi trong ví dụ python, Vì vậy, hãy xem ví dụ bên dưới

Là một nhà phát triển Python, chúng tôi phải hoàn thành rất nhiều công việc như xóa dữ liệu khỏi tệp hoặc văn bản trước khi xử lý các hoạt động kinh doanh khác

Ví dụ: bạn có tệp văn bản dữ liệu thô hoặc chuỗi văn bản và bạn phải đọc một số dữ liệu cụ thể như URL bằng cách thực hiện khớp Biểu thức chính quy thực tế

Biểu thức chính quy là gì và mô-đun nào được sử dụng trong Python?

Biểu thức chính quy là một chuỗi [các] ký tự đặc biệt được sử dụng chủ yếu để tìm và thay thế các mẫu trong một chuỗi hoặc tệp, sử dụng một…

Mô-đun này xác định một giao diện tiêu chuẩn để ngắt các chuỗi Bộ định vị tài nguyên thống nhất [URL] trong các thành phần [sơ đồ địa chỉ, vị trí mạng, đường dẫn, v.v. ], để kết hợp các thành phần lại thành chuỗi URL và để chuyển đổi "URL tương đối" thành URL tuyệt đối được cung cấp "URL cơ sở. ”

Mô-đun đã được thiết kế để khớp với RFC internet trên Bộ định vị tài nguyên đồng nhất tương đối. Nó hỗ trợ các sơ đồ URL sau. file, ftp,

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

[addressing scheme, network location, path, query, fragment identifier].

[addressing scheme, network location, path, query, fragment identifier].

[addressing scheme, network location, path, query, fragment identifier].

Mô-đun xác định các chức năng thuộc hai loại chính. Phân tích cú pháp URL và trích dẫn URL. Chúng được đề cập chi tiết trong các phần sau

Phân tích cú pháp URL

Các chức năng phân tích cú pháp URL tập trung vào việc tách chuỗi URL thành các thành phần của nó hoặc kết hợp các thành phần URL thành chuỗi URL

urllib. phân tích cú pháp. urlparse[urlstring , scheme='', allow_fragments=True]

Phân tích cú pháp URL thành sáu thành phần, trả về 6 mục. Điều này tương ứng với cấu trúc chung của một URL.

[addressing scheme, network location, path, query, fragment identifier].

5. Mỗi mục tuple là một chuỗi, có thể trống. Các thành phần không được chia thành các phần nhỏ hơn [ví dụ: vị trí mạng là một chuỗi đơn] và % thoát không được mở rộng. Các dấu phân cách như được hiển thị ở trên không phải là một phần của kết quả, ngoại trừ dấu gạch chéo ở đầu trong thành phần đường dẫn, dấu gạch chéo này sẽ được giữ lại nếu có. Ví dụ

>>> from urllib.parse import urlparse
>>> urlparse["scheme://netloc/path;parameters?query#fragment"]
ParseResult[scheme='scheme', netloc='netloc', path='/path;parameters', params='',
            query='query', fragment='fragment']
>>> o = urlparse["//docs.python.org:80/3/library/urllib.parse.html?"
..              "highlight=params#url-parsing"]
>>> o
ParseResult[scheme='http', netloc='docs.python.org:80',
            path='/3/library/urllib.parse.html', params='',
            query='highlight=params', fragment='url-parsing']
>>> o.scheme
'http'
>>> o.netloc
'docs.python.org:80'
>>> o.hostname
'docs.python.org'
>>> o.port
80
>>> o._replace[fragment=""].geturl[]
'//docs.python.org:80/3/library/urllib.parse.html?highlight=params'

Theo các đặc tả cú pháp trong RFC 1808, urlparse chỉ nhận ra một netloc nếu nó được giới thiệu đúng bởi '//'. Mặt khác, đầu vào được coi là một URL tương đối và do đó bắt đầu với một thành phần đường dẫn

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

Đối số lược đồ cung cấp lược đồ địa chỉ mặc định, chỉ được sử dụng nếu URL không chỉ định một. Nó phải cùng loại [văn bản hoặc byte] với chuỗi url, ngoại trừ giá trị mặc định

[addressing scheme, network location, path, query, fragment identifier].

6 luôn được cho phép và được tự động chuyển đổi thành

[addressing scheme, network location, path, query, fragment identifier].

7 nếu thích hợp

Nếu đối số allow_fragments là sai, mã định danh phân đoạn không được nhận dạng. Thay vào đó, chúng được phân tích cú pháp như một phần của đường dẫn, tham số hoặc thành phần truy vấn và

[addressing scheme, network location, path, query, fragment identifier].

8 được đặt thành chuỗi trống trong giá trị trả về

Giá trị trả về là a , có nghĩa là các mục của nó có thể được truy cập theo chỉ mục hoặc dưới dạng thuộc tính được đặt tên, đó là

Thuộc tính

Mục lục

Giá trị

Giá trị nếu không có mặt

[addressing scheme, network location, path, query, fragment identifier].

Trình xác định lược đồ URL

tham số sơ đồ

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Phần vị trí mạng

chuỗi rỗng

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

đường dẫn phân cấp

chuỗi rỗng

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Tham số cho phần tử đường dẫn cuối cùng

chuỗi rỗng

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

thành phần truy vấn

chuỗi rỗng

[addressing scheme, network location, path, query, fragment identifier].

mã định danh đoạn

chuỗi rỗng

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Tên tài khoản

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Mật khẩu

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Tên máy chủ [viết thường]

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

Số cổng là số nguyên, nếu có

Đọc thuộc tính

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

1 sẽ tăng nếu một cổng không hợp lệ được chỉ định trong URL. Xem phần để biết thêm thông tin về đối tượng kết quả

Dấu ngoặc vuông không khớp trong thuộc tính

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

0 sẽ tăng

Các ký tự trong thuộc tính

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

0 phân tách theo chuẩn hóa NFKC [như được sử dụng bởi mã hóa IDNA] thành bất kỳ ký tự nào trong số

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

>>> from urllib.parse import urlsplit
>>> url = '//www.Python.org/doc/#'
>>> r1 = urlsplit[url]
>>> r1.geturl[]
'//www.Python.org/doc/'
>>> r2 = urlsplit[r1.geturl[]]
>>> r2.geturl[]
'//www.Python.org/doc/'

>>> from urllib.parse import urlsplit
>>> url = '//www.Python.org/doc/#'
>>> r1 = urlsplit[url]
>>> r1.geturl[]
'//www.Python.org/doc/'
>>> r2 = urlsplit[r1.geturl[]]
>>> r2.geturl[]
'//www.Python.org/doc/'

1 hoặc

>>> from urllib.parse import urlsplit
>>> url = '//www.Python.org/doc/#'
>>> r1 = urlsplit[url]
>>> r1.geturl[]
'//www.Python.org/doc/'
>>> r2 = urlsplit[r1.geturl[]]
>>> r2.geturl[]
'//www.Python.org/doc/'

2 sẽ tăng. Nếu URL được phân tách trước khi phân tích cú pháp, sẽ không có lỗi nào phát sinh

Như trường hợp của tất cả các bộ dữ liệu được đặt tên, lớp con có một vài phương thức và thuộc tính bổ sung đặc biệt hữu ích. Một phương pháp như vậy là

>>> from urllib.parse import urlsplit
>>> url = '//www.Python.org/doc/#'
>>> r1 = urlsplit[url]
>>> r1.geturl[]
'//www.Python.org/doc/'
>>> r2 = urlsplit[r1.geturl[]]
>>> r2.geturl[]
'//www.Python.org/doc/'

4. Phương thức

>>> from urllib.parse import urlsplit
>>> url = '//www.Python.org/doc/#'
>>> r1 = urlsplit[url]
>>> r1.geturl[]
'//www.Python.org/doc/'
>>> r2 = urlsplit[r1.geturl[]]
>>> r2.geturl[]
'//www.Python.org/doc/'

4 sẽ trả về một đối tượng ParseResult mới thay thế các trường đã chỉ định bằng các giá trị mới

>>> from urllib.parse import urlparse
>>> u = urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
>>> u
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> u._replace[scheme='http']
ParseResult[scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']

Đã thay đổi trong phiên bản 3. 2. Đã thêm khả năng phân tích cú pháp URL IPv6.

Đã thay đổi trong phiên bản 3. 3. Đoạn hiện được phân tích cú pháp cho tất cả các lược đồ URL [trừ khi allow_fragment là sai], theo RFC 3986. Trước đây, đã tồn tại một danh sách cho phép các lược đồ hỗ trợ các phân đoạn.

Đã thay đổi trong phiên bản 3. 6. Số cổng ngoài phạm vi hiện tăng , thay vì trả về.

Đã thay đổi trong phiên bản 3. 8. Các ký tự ảnh hưởng đến phân tích cú pháp netloc theo chuẩn hóa NFKC giờ đây sẽ tăng lên.

urllib. phân tích cú pháp. parse_qs[qs , keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace', max_num_fields=None, separator='&']

Phân tích chuỗi truy vấn được cung cấp dưới dạng đối số chuỗi [dữ liệu thuộc loại ứng dụng/x-www-form-urlencoding]. Dữ liệu được trả về dưới dạng từ điển. Các khóa từ điển là các tên biến truy vấn duy nhất và các giá trị là danh sách các giá trị cho mỗi tên

Đối số tùy chọn keep_blank_values là cờ cho biết liệu các giá trị trống trong truy vấn được mã hóa theo phần trăm có được coi là chuỗi trống hay không. Một giá trị true chỉ ra rằng các khoảng trống nên được giữ lại dưới dạng các chuỗi trống. Giá trị sai mặc định cho biết rằng các giá trị trống sẽ bị bỏ qua và coi như chúng không được bao gồm

Đối số tùy chọnstrict_parsing là cờ cho biết phải làm gì với lỗi phân tích cú pháp. Nếu sai [mặc định], lỗi sẽ bị bỏ qua. Nếu đúng, lỗi sẽ đưa ra một ngoại lệ

Các tham số mã hóa và lỗi tùy chọn chỉ định cách giải mã các chuỗi được mã hóa theo phần trăm thành các ký tự Unicode, như được phương thức chấp nhận

Đối số tùy chọn max_num_fields là số lượng trường tối đa để đọc. Nếu được đặt, sau đó ném một nếu có nhiều hơn max_num_fields trường được đọc

Dấu tách đối số tùy chọn là ký hiệu được sử dụng để tách các đối số truy vấn. Nó mặc định là urllib.parse2

Sử dụng hàm [với tham số urllib.parse4 được đặt thành urllib.parse5] để chuyển đổi các từ điển đó thành các chuỗi truy vấn

Đã thay đổi trong phiên bản 3. 2. Thêm thông số mã hóa và lỗi.

Đã thay đổi trong phiên bản 3. 8. Đã thêm tham số max_num_fields.

Đã thay đổi trong phiên bản 3. 10. Đã thêm tham số dấu phân cách với giá trị mặc định là urllib.parse2. Các phiên bản Python sớm hơn Python 3. 10 được phép sử dụng cả urllib.parse7 và urllib.parse2 làm dấu tách tham số truy vấn. Điều này đã được thay đổi để chỉ cho phép một khóa dấu phân cách duy nhất, với ____131_______2 làm dấu phân cách mặc định.

urllib. phân tích cú pháp. parse_qsl[qs , keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace', max_num_fields=None, separator='&']

Phân tích chuỗi truy vấn được cung cấp dưới dạng đối số chuỗi [dữ liệu thuộc loại ứng dụng/x-www-form-urlencoding]. Dữ liệu được trả về dưới dạng danh sách các cặp tên, giá trị

Các tham số mã hóa và lỗi tùy chọn chỉ định cách giải mã các chuỗi được mã hóa theo phần trăm thành các ký tự Unicode, như được phương thức chấp nhận

Đối số tùy chọn max_num_fields là số lượng trường tối đa để đọc. Nếu được đặt, sau đó ném một nếu có nhiều hơn max_num_fields trường được đọc

Dấu tách đối số tùy chọn là ký hiệu được sử dụng để tách các đối số truy vấn. Nó mặc định là urllib.parse2

Sử dụng hàm để chuyển đổi danh sách các cặp đó thành chuỗi truy vấn

Đã thay đổi trong phiên bản 3. 2. Thêm thông số mã hóa và lỗi.

Đã thay đổi trong phiên bản 3. 8. Đã thêm tham số max_num_fields.

urllib. phân tích cú pháp. urlunparse[phần]

Tạo một URL từ một tuple như được trả về bởi file9. Đối số bộ phận có thể là bất kỳ sáu mục nào có thể lặp lại. Điều này có thể dẫn đến một URL hơi khác, nhưng tương đương, nếu URL đã được phân tích cú pháp ban đầu có các dấu phân cách không cần thiết [ví dụ:

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

9 với một truy vấn trống; RFC tuyên bố rằng những dấu phân cách này là tương đương]

urllib. phân tích cú pháp. urlsplit[urlstring , scheme='', allow_fragments=True]

Điều này tương tự như, nhưng không tách các tham số khỏi URL. Điều này thường được sử dụng thay vì nếu cú pháp URL mới hơn cho phép áp dụng các tham số cho từng phân đoạn của phần đường dẫn của URL [xem RFC 2396] là cần thiết. Cần có một chức năng riêng biệt để phân tách các đoạn đường dẫn và tham số. Hàm này trả về 5 mục

[addressing scheme, network location, path, query, fragment identifier].

Giá trị trả về là a , các mục của nó có thể được truy cập theo chỉ mục hoặc dưới dạng thuộc tính được đặt tên

Thuộc tính

Mục lục

Giá trị

Giá trị nếu không có mặt

[addressing scheme, network location, path, query, fragment identifier].

Trình xác định lược đồ URL

tham số sơ đồ

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Phần vị trí mạng

chuỗi rỗng

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

đường dẫn phân cấp

chuỗi rỗng

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

thành phần truy vấn

chuỗi rỗng

[addressing scheme, network location, path, query, fragment identifier].

mã định danh đoạn

chuỗi rỗng

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Tên tài khoản

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Mật khẩu

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Tên máy chủ [viết thường]

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

Số cổng là số nguyên, nếu có

Đọc thuộc tính

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

1 sẽ tăng nếu một cổng không hợp lệ được chỉ định trong URL. Xem phần để biết thêm thông tin về đối tượng kết quả

Dấu ngoặc vuông không khớp trong thuộc tính

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

0 sẽ tăng

Các ký tự trong thuộc tính

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

0 phân tách theo chuẩn hóa NFKC [như được sử dụng bởi mã hóa IDNA] thành bất kỳ ký tự nào trong số

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

>>> from urllib.parse import urlsplit
>>> url = '//www.Python.org/doc/#'
>>> r1 = urlsplit[url]
>>> r1.geturl[]
'//www.Python.org/doc/'
>>> r2 = urlsplit[r1.geturl[]]
>>> r2.geturl[]
'//www.Python.org/doc/'

>>> from urllib.parse import urlsplit
>>> url = '//www.Python.org/doc/#'
>>> r1 = urlsplit[url]
>>> r1.geturl[]
'//www.Python.org/doc/'
>>> r2 = urlsplit[r1.geturl[]]
>>> r2.geturl[]
'//www.Python.org/doc/'

1 hoặc

>>> from urllib.parse import urlsplit
>>> url = '//www.Python.org/doc/#'
>>> r1 = urlsplit[url]
>>> r1.geturl[]
'//www.Python.org/doc/'
>>> r2 = urlsplit[r1.geturl[]]
>>> r2.geturl[]
'//www.Python.org/doc/'

2 sẽ tăng. Nếu URL được phân tách trước khi phân tích cú pháp, sẽ không có lỗi nào phát sinh

Sau bản cập nhật RFC 3986, các ký tự xuống dòng ASCII _______17, _________18 và tab _________19 bị xóa khỏi URL

Đã thay đổi trong phiên bản 3. 6. Số cổng ngoài phạm vi hiện tăng , thay vì trả về.

Đã thay đổi trong phiên bản 3. 8. Các ký tự ảnh hưởng đến phân tích cú pháp netloc theo chuẩn hóa NFKC giờ đây sẽ tăng lên.

Đã thay đổi trong phiên bản 3. 10. Các ký tự tab và dòng mới ASCII bị xóa khỏi URL.

urllib. phân tích cú pháp. urlunsplit[các phần]

Kết hợp các phần tử của một bộ như được trả về bởi một URL hoàn chỉnh dưới dạng một chuỗi. Đối số bộ phận có thể là bất kỳ năm mục nào có thể lặp lại. Điều này có thể dẫn đến một URL hơi khác, nhưng tương đương, nếu URL đã được phân tích cú pháp ban đầu có các dấu phân cách không cần thiết [ví dụ: dấu ? với truy vấn trống; RFC tuyên bố rằng các dấu phân cách này là tương đương]

urllib. phân tích cú pháp. urljoin[base , url, allow_fragments=True]

Xây dựng một URL [“tuyệt đối”] đầy đủ bằng cách kết hợp một “URL cơ sở” [base] với một URL [url] khác. Một cách không chính thức, điều này sử dụng các thành phần của URL cơ sở, cụ thể là lược đồ địa chỉ, vị trí mạng và [một phần] đường dẫn, để cung cấp các thành phần còn thiếu trong URL tương đối. Ví dụ

>>> from urllib.parse import urljoin
>>> urljoin['//www.cwi.nl/%7Eguido/Python.html', 'FAQ.html']
'//www.cwi.nl/%7Eguido/FAQ.html'

Đối số allow_fragments có cùng ý nghĩa và mặc định như đối với

Ghi chú

Nếu url là một URL tuyệt đối [nghĩa là url bắt đầu bằng

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

25 hoặc

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

26], thì tên máy chủ và/hoặc lược đồ của url sẽ xuất hiện trong kết quả. Ví dụ

>>> urljoin['//www.cwi.nl/%7Eguido/Python.html',
..         '//www.python.org/%7Eguido']
'//www.python.org/%7Eguido'

Nếu bạn không muốn hành vi đó, hãy xử lý trước url bằng và , loại bỏ các phần sơ đồ và netloc có thể có

Đã thay đổi trong phiên bản 3. 5. Hành vi được cập nhật để phù hợp với ngữ nghĩa được xác định trong RFC 3986.

urllib. phân tích cú pháp. urldefrag[url]

Nếu url chứa số nhận dạng đoạn, hãy trả về phiên bản đã sửa đổi của url không có số nhận dạng đoạn và số nhận dạng đoạn dưới dạng một chuỗi riêng biệt. Nếu không có định danh phân đoạn trong url, hãy trả về url chưa sửa đổi và một chuỗi trống

Giá trị trả về là a , các mục của nó có thể được truy cập theo chỉ mục hoặc dưới dạng thuộc tính được đặt tên

Thuộc tính

Mục lục

Giá trị

Giá trị nếu không có mặt

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

URL không có đoạn

chuỗi rỗng

[addressing scheme, network location, path, query, fragment identifier].

mã định danh đoạn

chuỗi rỗng

Xem phần để biết thêm thông tin về đối tượng kết quả

Đã thay đổi trong phiên bản 3. 2. Kết quả là một đối tượng có cấu trúc chứ không phải là một bộ 2 đơn giản.

urllib. phân tích cú pháp. mở gói[url]

Trích xuất url từ một URL được bao bọc [nghĩa là một chuỗi có định dạng là

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

31,

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

32,

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

33 hoặc

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

34]. Nếu url không phải là một URL được bọc, nó sẽ được trả lại mà không có thay đổi

Phân tích cú pháp các byte được mã hóa ASCII

Các chức năng phân tích cú pháp URL ban đầu được thiết kế để chỉ hoạt động trên các chuỗi ký tự. Trong thực tế, sẽ rất hữu ích khi có thể thao tác các URL được trích dẫn và mã hóa đúng cách dưới dạng các chuỗi byte ASCII. Theo đó, các chức năng phân tích cú pháp URL trong mô-đun này đều hoạt động trên đối tượng và đối tượng ngoài đối tượng

Nếu dữ liệu được truyền vào, kết quả cũng sẽ chỉ chứa dữ liệu. Nếu hoặc dữ liệu được truyền vào, kết quả sẽ chỉ chứa dữ liệu

Việc cố gắng trộn dữ liệu với hoặc trong một lệnh gọi hàm đơn lẻ sẽ dẫn đến việc tăng giá trị, trong khi việc cố gắng chuyển các giá trị byte không phải ASCII sẽ kích hoạt

Để hỗ trợ chuyển đổi dễ dàng hơn các đối tượng kết quả giữa và , tất cả các giá trị trả về từ hàm phân tích cú pháp URL đều cung cấp phương thức

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

50 [khi kết quả chứa dữ liệu] hoặc phương thức

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

52 [khi kết quả chứa dữ liệu]. Chữ ký của các phương thức này khớp với chữ ký của các phương thức và phương thức tương ứng [ngoại trừ việc mã hóa mặc định là

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

56 thay vì

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

57]. Mỗi giá trị tạo ra một giá trị thuộc loại tương ứng có chứa dữ liệu [đối với phương pháp

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

50] hoặc dữ liệu [đối với phương pháp

>>> from urllib.parse import urlparse
>>> urlparse['//www.cwi.nl:80/%7Eguido/Python.html']
ParseResult[scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['www.cwi.nl/%7Eguido/Python.html']
ParseResult[scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
            params='', query='', fragment='']
>>> urlparse['help/Python.html']
ParseResult[scheme='', netloc='', path='help/Python.html', params='',
            query='', fragment='']

52]

Các ứng dụng cần hoạt động trên các URL có khả năng được trích dẫn không chính xác có thể chứa dữ liệu không phải ASCII sẽ cần thực hiện giải mã riêng từ byte thành ký tự trước khi gọi các phương pháp phân tích cú pháp URL

Hành vi được mô tả trong phần này chỉ áp dụng cho các chức năng phân tích cú pháp URL. Các hàm trích dẫn URL sử dụng các quy tắc riêng của chúng khi tạo hoặc sử dụng các chuỗi byte như được trình bày chi tiết trong tài liệu về các hàm trích dẫn URL riêng lẻ

Đã thay đổi trong phiên bản 3. 2. Chức năng phân tích cú pháp URL hiện chấp nhận chuỗi byte được mã hóa ASCII

Kết quả phân tích cú pháp có cấu trúc

Các đối tượng kết quả từ , và các hàm là các lớp con của loại. Các lớp con này thêm các thuộc tính được liệt kê trong tài liệu cho các chức năng đó, hỗ trợ mã hóa và giải mã được mô tả trong phần trước, cũng như một phương pháp bổ sung

urllib. phân tích cú pháp. Chia kết quả. geturl[]

Trả lại phiên bản được kết hợp lại của URL gốc dưới dạng chuỗi. Điều này có thể khác với URL ban đầu ở chỗ lược đồ có thể được chuẩn hóa thành chữ thường và các thành phần trống có thể bị loại bỏ. Cụ thể, các tham số trống, truy vấn và mã định danh đoạn sẽ bị xóa

Để có kết quả, chỉ các mã định danh đoạn trống sẽ bị xóa. Đối với và kết quả, tất cả các thay đổi được lưu ý sẽ được thực hiện đối với URL được phương thức này trả về

Kết quả của phương pháp này không thay đổi nếu được trả lại thông qua chức năng phân tích cú pháp ban đầu

>>> from urllib.parse import urlsplit
>>> url = '//www.Python.org/doc/#'
>>> r1 = urlsplit[url]
>>> r1.geturl[]
'//www.Python.org/doc/'
>>> r2 = urlsplit[r1.geturl[]]
>>> r2.geturl[]
'//www.Python.org/doc/'

Các lớp sau cung cấp việc triển khai các kết quả phân tích cú pháp có cấu trúc khi thao tác trên các đối tượng

lớp urllib. phân tích cú pháp. DefragResult[url , đoạn]