Błędy zdarzają się nawet doświadczonym zespołom. Poniżej lista pułapek, które najczęściej obniżają skuteczność zabezpieczeń PDF oraz sposoby, jak ich unikać.
1. Samo ustawienie uprawnień bez rasteryzacji
Uprawnienia można obejść; bez rasteryzacji warstwa tekstowa często pozostaje kopiowalna lub łatwa do parsowania przez OCR/AI, zwłaszcza jeśli PDF zawiera osadzony tekst lub warstwy.
Objawy
- Po „zabezpieczeniu” nadal da się zaznaczyć tekst w przeglądarce PDF.
- OCR na próbce strony osiąga wysoką trafność (duża zgodność znaków/słów).
Jak naprawić
- Wymuś rasteryzację wszystkich stron do obrazów (JPEG/PNG) i usuń warstwę tekstową.
- Dla cienkich fontów rozważ lekki „print‑scan” (szum/halftone).
W praktyce: sama flaga uprawnień w PDF to za mało. Dopiero rasteryzacja + (opcjonalne) szyfrowanie realnie podnosi koszt wyciągania treści.
2. Zbyt wysoka rozdzielczość obrazów
300+ DPI dla prostych dokumentów generuje bardzo duże pliki, które gorzej się udostępnia i przetwarza. Dla większości dokumentów tekstowych wystarczy 150–220 DPI, a dla skanów niskiej jakości czasem nawet 150 DPI jest optymalne.
Rekomendacje
- Tekst i wykresy: 150–220 DPI (Mid), JPEG quality 75–85.
- Dokumenty z drobną grafiką: 220–300 DPI (High), quality 80–85.
- Prezentacje/ulotki: 150–220 DPI, quality 75–80.
Zasada: podbij DPI tylko, gdy zyskujesz czytelność. Jeśli nie – szkoda miejsca.
3. Zbyt agresywna kompresja
Za mocny JPEG powoduje artefakty na krawędziach liter i męczy wzrok. Celuj w balans: czytelność > minimalny rozmiar. Zamiast drastycznie ścinać jakość, połącz niewielkie zmniejszenie wymiarów ze stałą jakością 75–85.
Jak dobrać kompresję
- Zacznij od quality 80–85 i zweryfikuj 2–3 kluczowe strony (nagłówki, tabele, drobny druk).
- Jeśli rozmiar nadal za duży – zmniejsz proporcjonalnie wymiary (np. 0.9×) i ponownie zapisz.
4. Brak hasła użytkownika, gdy jest wymagane
Bez hasła część usług może otworzyć plik i próbować OCR. Gdy dokument jest poufny, ustaw niepuste hasło użytkownika, a uprawnienia właściciela ustaw tak, by blokowały kopiowanie/druk/edycję.
Praktyka
- Hasło użytkownika wymagane do otwarcia pliku (blokada importu przez narzędzia bez podania hasła).
- Hasło właściciela do wymuszania polityki uprawnień (kopiowanie/druk/annotate).
5. Niespójne DPI między stronami
Skoki jakości utrudniają odbiór i kompresję, generują nierówny wygląd i czasem wywołują błędy po stronie czytników. Trzymaj spójne DPI i jakość dla wszystkich stron.
Jak zapewnić spójność
- Przetwarzaj dokument w jednym przebiegu z tymi samymi parametrami (DPI, quality).
- Unikaj mieszania formatów (np. JPG i PNG) bez potrzeby – trzymaj się jednego.
Diagnostyka i weryfikacja
Po przetworzeniu zweryfikuj kilka wskaźników jakości i rozmiaru:
- Rozmiar PDF – porównaj z oryginałem; przy Mid docelowo mniejszy o ~15–30%.
- Czytelność – powiększ do 125–150% i oceń drobny druk/tabele.
- OCR sanity check – przepuść 1–2 strony przez OCR i sprawdź odczyt znaków (oczekuj niskiej trafności).
# Szybki test rozmiaru (Linux/macOS)
ls -lh "oryginal.pdf" "po_przetworzeniu.pdf"
# OCR sanity check (np. tesseract, gdy dostępny)
tesseract sample_page.png - -l pol+eng 2>/dev/null | head -n 20
Rekomendowane ustawienia wg typu dokumentu
Typ dokumentu | DPI | JPEG quality | Uwagi |
---|---|---|---|
Umowy, tekst | 150–220 | 75–85 | Spójne DPI; test drobnego druku. |
Skany niskiej jakości | 150–220 | 80–85 | Rozważ lekkie odszumianie przed kompresją. |
Prezentacje, ulotki | 150–220 | 75–80 | Kolory OK; unikaj przesadnego quality. |
Raporty z wykresami | 220–300 | 80–85 | Oceń czytelność cienkich linii. |
Checklista wdrożeniowa
- Rasteryzacja wszystkich stron – brak warstwy tekstu.
- Spójne DPI i jakość na całym dokumencie.
- Weryfikacja rozmiaru i czytelności (2–3 strony testowe).
- Opcjonalnie: hasło użytkownika + ograniczenia uprawnień właściciela.
- Sanity check OCR na próbce – oczekuj niskiej trafności.