Tìm và thay thế văn bản trong pdf python

Tệp Định dạng Tài liệu Di động [PDF] chứa các ký tự ASCII 7 bit, ngoại trừ một số thành phần có thể có nội dung nhị phân. Thông thường, nó bao gồm văn bản, hình ảnh, phông chữ nhúng, siêu liên kết, video, nút tương tác, biểu mẫu, v.v. Đôi khi, chúng tôi có thể có yêu cầu cập nhật nội dung Văn bản trong tệp PDF và nó trở nên cồng kềnh khi chúng tôi phải thực hiện các thao tác cập nhật hàng loạt. Trong những tình huống như vậy, một giải pháp có lập trình là một cách tiếp cận khả thi. Hơn nữa, nó trở nên tiện dụng hơn khi bạn có tối thiểu hoặc không có sự phức tạp nào liên quan đến thiết lập/cài đặt môi trường. Vì vậy, chúng ta sẽ thảo luận chi tiết về cách tìm kiếm và thay thế văn bản bằng Python SDK. Không yêu cầu tải xuống và cài đặt Adobe Acrobat hoặc phần mềm khác và thực hiện tất cả quá trình xử lý PDF trong Đám mây

API thao tác PDF

dự án của chúng tôi. PDF Cloud API cung cấp khả năng tạo cũng như thao tác với các tệp PDF hiện có. Nó cũng cho phép bạn thực hiện các thao tác liên quan đến Thao tác văn bản, nơi bạn có các tùy chọn để đọc các mục Văn bản, Thêm các mục Văn bản hoặc thay thế các lần xuất hiện của Văn bản trong tệp PDF. Để tạo thuận lợi hơn nữa cho người dùng của chúng tôi, chúng tôi đã phát triển Aspose. SDK đám mây PDF cho Python là trình bao bọc xung quanh Aspose. API đám mây PDF. Vì vậy, bây giờ bạn có tất cả các khả năng xử lý PDF trong ứng dụng Python của mình

Bước đầu tiên trong việc sử dụng API là cài đặt nó. SDK có sẵn để tải xuống miễn phí qua kho lưu trữ PIP và GitHub. Bây giờ hãy thực hiện lệnh sau trên dấu nhắc lệnh/thiết bị đầu cuối để cài đặt phiên bản SDK mới nhất trên hệ thống

pip install asposepdfcloud

MS Visual Studio

Khi sử dụng Visual Studio, bạn cũng có thể thêm tham chiếu vào dự án Python của mình trong dự án Visual Studio. Vui lòng tìm kiếm asposepdfcloud dưới dạng gói trong cửa sổ môi trường Python. Vui lòng làm theo các bước được đánh số trong hình bên dưới để hoàn tất quá trình cài đặt

Hình ảnh 1. - Aspose. SDK đám mây PDF cho gói Python

Tài khoản bảng điều khiển đám mây

Để đảm bảo tính toàn vẹn và quyền riêng tư của dữ liệu đang được khách hàng của chúng tôi sử dụng, chỉ những người được ủy quyền mới có thể truy cập API đám mây. Do đó, bước tiếp theo là tạo một tài khoản trên Aspose. bảng điều khiển đám mây. Nếu bạn có tài khoản GitHub hoặc Google, chỉ cần Đăng ký hoặc nhấp vào nút Tạo tài khoản mới và cung cấp thông tin cần thiết. Bây giờ, hãy đăng nhập vào bảng điều khiển bằng thông tin đăng nhập và mở rộng phần Ứng dụng từ bảng điều khiển và cuộn xuống phần Thông tin xác thực ứng dụng khách để xem ID ứng dụng khách và thông tin bí mật ứng dụng khách

Hình ảnh 2. - Thông tin đăng nhập của khách hàng trên Aspose. bảng điều khiển đám mây

Tìm kiếm và thay thế văn bản bằng Python

Vui lòng làm theo hướng dẫn bên dưới để tìm kiếm một chuỗi cụ thể và thay thế tất cả các lần xuất hiện của chuỗi đó trong tài liệu PDF

  • Đầu tiên, tạo một thể hiện của lớp ApiClient trong khi cung cấp Client ID Client Secret làm đối số
  • Thứ hai, tạo một thể hiện của lớp PdfApi lấy đối tượng ApiClient làm đối số đầu vào
  • Tạo các biến chỉ định tài liệu PDF đầu vào
  • Bây giờ hãy tạo một đối tượng TextReplaceListRequest xác định các thuộc tính thay thế văn bản
  • Cuối cùng, gọi phương thức để bắt đầu thao tác tìm kiếm và thay thế và lưu kết quả vào bộ nhớ Đám mây

Hình ảnh 3. - Xem trước đầu ra thay thế văn bản

Trong đoạn mã trên, vui lòng quan sát cụ thể hai tham số i. e. Start Index và CountReplace. StartIndex xác định lần xuất hiện cụ thể của văn bản mà từ đó thao tác thay thế văn bản sẽ được bắt đầu và CountReplace xác định lần xuất hiện văn bản cần được thay thế. Trong hình bên dưới, lưu ý chỉ có hai lần xuất hiện của chuỗi Dòng sản phẩm được cập nhật bắt đầu từ chỉ mục 2

Hình 4. - Hai lần xuất hiện của chuỗi được thay thế

Để bạn tham khảo, URL2PDF đầu vào. pdf và kết quả là Văn bản-Thay thế-Đầu ra. pdf đã được đính kèm

Tìm kiếm và thay thế văn bản bằng lệnh cURL

Cái hay của API REST là chúng cũng có thể được truy cập thông qua các lệnh cURL. Vì vậy, trong phần này, chúng ta sẽ thảo luận các bước về cách chúng ta có thể tìm kiếm và thay thế văn bản bằng lệnh cURL. Vì vậy, để truy cập Aspose. PDF Cloud thông qua lệnh cURL, trước tiên chúng tôi cần tạo Mã thông báo web JSON [JWT] dựa trên thông tin đăng nhập khách hàng cá nhân của bạn được chỉ định qua Aspose. bảng điều khiển đám mây. Điều này là bắt buộc vì API của chúng tôi chỉ có thể truy cập được đối với người dùng đã đăng ký. Vui lòng thực hiện lệnh sau để tạo mã thông báo JWT

curl -v "//api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Bây giờ chúng tôi đã tạo mã thông báo JWT được cá nhân hóa của mình, chúng tôi cần thực thi lệnh cURL sau để thay thế chuỗi Năng suất trong tài liệu PDF và lưu tài liệu đã cập nhật trong cùng một bộ lưu trữ đám mây

curl -X POST "//api.aspose.cloud/v3.0/pdf/URL2PDF.pdf/text/replace" \
-H  "accept: application/json" \
-H  "authorization: Bearer " \
-H  "Content-Type: application/json" \
-d "{  \"TextReplaces\": [    {      \"OldValue\": \"Product Family\",      \"NewValue\": \"Product Families\",      \"Regex\": true,      \"TextState\": {        \"FontSize\": 0,        \"Font\": \"Arial\",        \"ForegroundColor\": {          \"A\": 0,          \"R\": 252,          \"G\": 240,          \"B\": 3        },        \"BackgroundColor\": {          \"A\": 0,          \"R\": 252,          \"G\": 3,          \"B\": 248        },        \"FontStyle\": \"Regular\"      },      \"Rect\": {        \"LLX\": 0,        \"LLY\": 0,        \"URX\": 0,        \"URY\": 0      }    }  ],  \"DefaultFont\": \"Arial\",  \"StartIndex\": 2,  \"CountReplace\": 2}"

Phần kết luận

Hãy tóm tắt cuộc thảo luận của chúng tôi về bài viết. Vì vậy, trong bài đăng trên blog này, chúng tôi đã khám phá những khả năng tuyệt vời của Aspose. PDF Cloud liên quan đến tìm kiếm và thay thế văn bản. Chúng tôi cũng đã thảo luận về cách chúng tôi có thể chỉ định các thuộc tính xuất hiện văn bản của chuỗi được thay thế trong tài liệu kết quả. Đồng thời, chúng tôi đã học các bước về cách kiểm soát số lần xuất hiện văn bản có thể được thay thế. Để tạo điều kiện thuận lợi hơn nữa cho các khách hàng trung thành của chúng tôi, mã nguồn hoàn chỉnh của Apsose. SDK đám mây PDF cho Python đã có sẵn để tải xuống qua GitHub. Trong trường hợp bạn gặp phải bất kỳ sự cố nào khi sử dụng API hoặc bạn có bất kỳ câu hỏi nào khác, vui lòng liên hệ với chúng tôi qua Diễn đàn hỗ trợ sản phẩm miễn phí

Chủ Đề