Hướng dẫn tách file pdf Informational

Thuật ngữ dữ liệu gốc (meta-data) theo nghĩa đen có nghĩa là ‘dữ liệu về dữ liệu’. Dữ liệu gốc cung cấp thêm thông tin về một tệp cụ thể, chẳng hạn như tác giả, dữ liệu khởi tạo, các hạn chế bản quyền khả dĩ hoặc ứng dụng được sử dụng để tạo tệp. Cách sử dụng các dữ liệu gốc trong tệp PDF được miêu tả trong bài này. Nội dung hướng tới ngành công nghiệp in – bao bì nhưng cũng hữu ích cho các ứng dụng khác của của định dạng PDF:

  • * Cách xem dữ liệu gốc trong tệp PDF
    • Thêm hoặc chỉnh sửa dữ liệu gốc
    • Cách xóa dữ liệu gốc
    • Cách dữ liệu gốc được lưu trữ trong tệp PDF
    • Các tiêu chuẩn về dữ liệu gốc trong file PDF
    • Tên tệp cũng là dữ liệu gốc
    • Thông tin bổ sung

Cách xem dữ liệu gốc trong tệp PDF

Để xem dữ liệu gốc trong tài liệu PDF, hãy mở tệp đó bằng Adobe Reader hoặc Adobe Acrobat rồi chọn Properties trong menu File. Ảnh chụp màn hình bên dưới hiển thị cửa sổ Additional Metadata trong Adobe Acrobat DC. Adobe Reader không có cửa sổ bổ sung này.

Hướng dẫn tách file pdf	Informational

Các ứng dụng khác quan tâm đến việc quản lý dữ liệu có thể hiển thị dữ liệu gốc. Ví dụ: Adobe Bridge cho phép bạn duyệt qua các thư mục chứa tệp PDF và kiểm tra các dữ liệu gốc cơ bản như tác giả (author), mô tả (description) và bản quyền (copyright) của các tệp PDF. Về mặt lý thuyết, các hệ điều hành cũng có thể làm điều này: Windows 7 làm rất tốt trong việc hiển thị dữ liệu gốc liên quan đến hình ảnh (chẳng hạn như độ phân giải, độ sâu bit, từ khóa,..) hoặc dữ liệu gốc liên quan đến âm nhạc (như nghệ sĩ, album và thể loại), nó lại không làm vậy đối với các tệp PDF.

Những hệ thống quản lý nội dung chuyên nghiệp không chỉ có thể hiển thị dữ liệu gốc mà còn cho phép tìm kiếm mở rộng dựa trên từ khóa hoặc trường mô tả.

Nhiều ứng dụng tạo nội dung, chẳng hạn như Microsoft Word, Adobe InDesign hoặc Adobe Photoshop, cho phép người dùng thiết lập dữ liệu gốc trên các tệp của mình. Ví dụ: trong InDesign, bạn có thể sử dụng tùy chọn File Info để thiết lập các dữ liệu gốc như tựa đề, mô tả, tác giả, từ khóa và các thông tin bản quyền. Những thông tin này được nhúng trong các trường dữ liệu gốc của tệp PDF khi ứng dụng xuất tệp PDF.

Các công cụ chỉnh sửa PDF, chẳng hạn như Adobe Acrobat Professional, cho phép bạn thêm dữ liệu gốc hoặc chỉnh sửa chúng. Đối với vài loại dữ liệu gốc chuyên biệt, sẽ cần một chương trình mở rộng – plug-in – để có thể nhập dữ liệu hoặc cung cấp cho người dùng các hướng dẫn và lựa chọn rõ ràng để nhập liệu. Các công cụ như Exiftool cho phép bạn trích xuất hoặc nhúng dữ liệu gốc. Ngoài ra còn có các công cụ trực tuyến – như PDF Candy – để chỉnh sửa dữ liệu gốc. Tôi (tác giả – ND) chưa thử nghiệm công cụ này nên không thể bình luận về độ tin cậy hoặc tính hữu dụng cho ngành in ngoài việc giới hạn dung lượng tệp là 10MB.

Cách xóa dữ liệu gốc

Dữ liệu gốc tạo thêm giá trị sử dụng cho tệp PDF nhưng tùy trường hợp mà bạn có thể muốn loại bỏ chúng. Chẳng hạn như lý do pháp lý hoặc vì những lo ngại về bảo mật hay quyền riêng tư.

  • * Nếu bạn có Adobe Reader, hãy chọn File > Properties để hiển thị cửa sổ Document Properties. Nó sẽ hiển thị các trường dữ liệu gốc quan trọng nhất mà bạn có thể xóa bằng tay.
    • Để xóa dữ liệu gốc trong từng tệp riêng lẻ, bạn cũng có thể sử dụng tùy chọn PDF Optimizer trong Adobe Acrobat. Trong Acrobat 9 Professional, chọn Advanced > PDF Optimizer. Trong cửa sổ bật lên, chọn tùy chọn Discard User Data ở bên trái và bật Discard document information and metadata ở bên phải. Nếu bạn cần làm sạch hàng chục hoặc hàng trăm tệp, bạn có thể làm như sau bằng chức năng hàng loạt của Acrobat Professional: chọn Advanced > Document Processing > Batch Processing. Nhấp vào New Sequence và đặt tên cho trình tự mới
    • Nếu bạn có plug-in Enfocus Pitstop trong Acrobat, nó có sẵn tính năng xóa dữ liệu gốc. Công cụ Callas pdfAutoOptimizer cũng có chức năng tương tự.
    • Ngoài ra, còn có các công cụ dòng lệnh để xóa hàng loạt các tệp PDF cũng như các công ty cung cấp dịch vụ có thu phí. Hãy sử dụng Google để khám phá.

Cách dữ liệu gốc được lưu trữ trong các tệp PDF

Có một số cơ chế để thêm dữ liệu gốc vào các tệp PDF:

  • Cơ chế Info Dictionary (Từ điển cặp dữ liệu – ND) đã có từ phiên bản PDF 1.0. Nó chứa thông tin cơ bản về tệp PDF bằng cách sử dụng một mục lưu trữ thông tin, chúng sẽ chứa cùng một giá trị từ khóa để truy vấn. Từ PDF 1.1 trở đi, đã có tám từ khóa mặc định để chứa đựng thông tin:
    • * Author (Tác giả) là người đã khởi tạo tài liệu
      • CreationDate (Ngày khởi tạo) – ngày giờ mà tài liệu được khởi tạo.
      • Creator (Trình khởi tạo) – ứng dụng hoặc thư viện gốc đã dùng để khởi tạo tệp
      • Producer (Trình sản xuất – ND) – phần mềm đã tạo tệp pdf. Thuở ban đầu của PDF, mọi người sẽ sử dụng một trình khởi tạo như Microsoft Word để viết tài liệu, in ra tệp PostScript và sau đó Trình khởi tạo sẽ là Acrobat Distiller, ứng dụng sẽ chuyển đổi tệp PostScript thành PDF. Ngày nay, Trình khởi tạo và Trình sản xuất thường giống nhau hoặc được bỏ trống.
      • Subject (Chủ đề) – Nội dung chính của tệp
      • Title (Tiêu đề) – Tựa đề của tài liệu
      • Keywords (Từ khóa) – từ khóa có thể được phân tách bằng dấu phẩy (hoặc chấm-phẩy để hỗ trợ việc tìm kiếm – ND)
      • ModDate (Ngày hiệu chỉnh) – ngày giờ sửa đổi mới nhất

Các giá trị phải là định dạng văn bản và các loại định dạng nào khác không được chấp nhận. Vài ứng dụng còn cho phép thêm các cặp dữ liệu của riêng chúng vào từ điển gốc.

  • Từ phiên bản PDF 1.4 (2001) cơ chế thứ hai và mang tính cộng tác nhiều hơn, được gọi metadata streams (các luồng dữ liệu gốc – ND), có mặt để nhúng dữ liệu gốc vào các tệp PDF. Một luồng dữ liệu gốc có thể được trải dài suốt tài liệu hoặc có thể chèn vào một đối tượng đơn trong tệp như phông chữ hoặc hình ảnh theo. Cơ chế này sử dụng cấu trúc của nền tảng dữ liệu gốc mở rộng XMP (Extensible Metadata Platform). XMP là một công nghệ được Adobe phát triển để nhúng dữ liệu gốc vào các tệp. Nó cũng có thể được sử dụng với các định dạng khác như JPG hoặc SVG và là một tiêu chuẩn ISO (ISO 16684-1). Tương tự như cơ chế từ điển ở trên, một gói XMP chứa một danh sách đơn giản các cặp “tên – giá trị”. Tuy nhiên, dữ liệu sẽ được lồng ghép nên cần một không-gian-tên để chuẩn hóa cấu trúc. Vì dữ liệu XMP được nhúng theo luồng, nó có thể được nén lại để giảm bớt dung lượng.

Hướng dẫn tách file pdf	Informational

  • Dữ liệu gốc cũng có thể được ghi vào tập tin PDF dưới dạng tự điển dữ liệu gốc PieceInfo Dictionary (được Illustrator và Photoshop sử dụng), Object Data (thuộc tính đối tượng hoặc thuộc tính người dùng) và Measurement Properties. Adobe Acrobat cho phép bạn đặt tên hoặc gắn nhãn các trang cùng với một miêu tả gợi ý. Các nhãn trang như vậy là dữ liệu gốc ở cấp độ trang, vì chúng có thể chỉ ra trang nào thuộc chuyên mục thể thao trong một cuốn tạp chí, hay là chỉ mục của một cuốn sách.

Các tiêu chuẩn về dữ liệu gốc của PDF

Có một số tiêu chuẩn để áp dụng dữ liệu gốc vào tệp PDF:

  • Có vài tiêu chuẩn nhánh cho tệp PDF như PDF/X và PDF/A yêu cầu sử dụng những dữ liệu gốc đặc tả. Ví dụ: trong nhánh PDF/X-1a, phải có trường dữ liệu gốc mô tả xem tệp PDF có được trapping hay không.
  • GWG bổ sung thêm thẻ-quảng-cáo để chuẩn hóa việc đưa dữ liệu gốc quảng cáo vào tệp PDF bằng XMP.
  • File PDF được chứng nhận (Certified PDF) là một cơ chế độc quyền để nhúng dữ liệu gốc về kiểm tra trước in – để xác định một tệp PDF gửi đi in đã được kiểm tra đúng cách về các phông chữ, hình ảnh có độ phân giải phù hợp,…
  • Tiêu chuẩn Processing Steps của GWG khá mới và nhằm chuẩn hóa cách thức thông tin sản xuất in có thể được nhúng trong các tệp PDF. Điều này được thực hiện bằng cách sử dụng cả đối tượng bổ sung và dữ liệu gốc. Bằng cách tiêu chuẩn hóa các phương thức thông tin về khuôn bế, dập nổi, véc-ni, v.v. được tích hợp vào trong tệp PDF, các thương hiệu, nhà thiết kế, nhà in hay cơ sở gia công sẽ dễ dàng cộng tác và tự động hóa sản xuất hơn.
  • Tiêu chuẩn ZUGFeRD của Đức dành cho hóa đơn điện tử là một ứng dụng thú vị trong việc nhúng dữ liệu bổ sung. Một hóa đơn PDF tuân thủ ZUGFeRD sẽ phải có những dữ liệu gốc đúng chuẩn trên nền tảng XMP (ví dụ như loại tài liệu – Document Type – phải được thiết lập là ‘Invoice’) trong khi dữ liệu lập hóa đơn thực sự nằm trong tệp XML đã nhúng sẵn vào tệp PDF.

Tên tệp cũng có thể dùng như dữ liệu gốc

Cách dễ nhất để cung cấp thêm thông tin vào tệp PDF là đặt tên tệp một cách thích hợp. Một cái tên như ‘SmartGuide_12_p057-096_v3.pdf’ cho người nhận biết nhiều hơn về tệp so với cái tên “pages_part2_final.pdf”.