Zaczernianie tekstu w dokumentach PDF – jak robić to dobrze?

Miłosz Cybowski | Michał Błażejewicz

Anonimizacja anonimizacji nierówna – może się okazać, że zaczernienie tekstu w naszym dokumencie, które na pierwszy rzut oka wygląda na stuprocentowo skuteczne, w rzeczywistości jest pułapką narażającą naszą firmę na poważne niebezpieczeństwo. Na co warto zwrócić uwagę podczas zaczerniania dokumentów?

Wszyscy oficerowie przebywający w szpitalu mieli obowiązek cenzurowania listów pacjentów-szeregowców (…). Było to nudne zajęcie i Yossarian doznał zawodu, przekonawszy się, że życie szeregowców jest niewiele ciekawsze niż życie oficerów. (…) aby się nieco rozerwać, zaczął sobie wymyślać zabawy. Pewnego razu zaczernił wszystko z wyjątkiem słów “Kochana Mary".

Powyższy cytat z powieści „Paragraf 22” Josepha Hellera przedstawia praktykowany przez lata sposób ukrywania treści dokumentów – choć zaprezentowany w celowo prześmiewczym kontekście – gdzie niepożądany fragment tekstu po prostu zostaje zamazany czarnym pisakiem. Dzisiaj również korzystamy z zaczerniania jako jednej z metod ochrony danych, a dokumenty zawierające treści nie nadające się do ujawnienia wysyłamy przy tym drogą cyfrową. Warto pamiętać, że w odsłonie cyfrowej metoda ta wiąże się jednak z poważnymi zagrożeniami, a poprawnej metody posługiwania się “cyfrowym pisakiem” często trzeba się po prostu nauczyć. Zaczernianie dokumentów (zwane też białkowaniem; nazewnictwo wydaje się w przypadku tej praktyki dość swobodnie traktowane) służy różnym celom. Jest to m.in. jedna z form anonimizacji dokumentów. Nikomu nie byłoby do śmiechu, gdyby jego dane, wskutek niewłaściwie dokonanej anonimizacji, dostały się w niepowołane ręce. Administratorom i Procesorom Danych Osobowych grożą ponadto dotkliwe kary wynikające z ustawy o ochronie danych osobowych, w przypadku naruszenia anonimowości. Odpowiednio zastosowane zaczernianie ma w tym przypadku znaczenie kluczowe.

Zaczernianie przekształca dane w cyfrowym dokumencie w sposób uniemożliwiający (lub drastycznie utrudniający) odczytanie oryginalnej treści, na przykład identyfikację osoby fizycznej lub określonych informacji zawartych w dokumencie, poprzez nałożenie czarnego paska w miejscu, gdzie występuje tekst. Dziś najczęściej korzysta się w tym celu z opcji wbudowanych w oprogramowanie, a niekiedy ze specjalnych narzędzi obiecujących użytkownikom fachowe wymazanie danych z dokumentów. Jak pokazuje wiele przykładów z życia wziętych, nie zawsze jest to jednak tak proste, jak mogłoby się wydawać (weźmy po uwagę chociażby amerykański raport dot. śmierci generała Nicola Calipariego).

Skąd biorą się problemy z zaczernianiem w dokumentach elektronicznych?

Problemy związane z niedostatecznym lub nieumiejętnym zaczernianiem dokumentów można podzielić na dwie kategorie. Pierwsza z nich to brak świadomości, że wiele plików poza swoją główną treścią, którą widzimy na ekranie, zawiera także właściwości (lub metadane). W efekcie nawet jeżeli usuniemy najbardziej oczywiste i widoczne informacje z treści dokumentu, może istnieć sposób na dotarcie do nich na podstawie danych zawartych we właściwościach samego pliku. Jest to szczególnie istotne w przypadku udostępniania całych plików, a nie tylko ich treści. Istnieją w tym przypadku, rzecz jasna, odpowiednie metody ochrony. Jedną z opcji oferowaną przez system FORDATA jest udostępnianie użytkownikom wyłącznie treści dokumentów, bez możliwości pobrania ich na dysk. Dzięki temu nawet jeżeli we właściwościach pliku zapisane zostały poufne informacje, nie będą one dostępne dla oglądającego treść.

Druga kategoria problemów związanych z anonimizacją polega na nieskutecznym zaczernianiu tekstu samego dokumentu. Wiele metod polega nie na usuwaniu, ale na zakrywaniu odpowiednich fragmentów tekstu. W żaden sposób nie wpływa to na samą treść, która wciąż znajduje się pod nałożonym zaczernieniem – w efekcie wystarczy zwykłe narzędzie do zaznaczania tekstu i przekopiowanie treści do innego pliku, żeby poznać ukryte informacje. To samo dotyczy innych prób ukrywania treści, jak chociażby zmiana koloru tła wyświetlanego tekstu na czarny czy zmiana koloru czcionki na biały. Na oko treść będzie niewidoczna, ale wystarczy zwykłe zaznaczenie i komenda kopiuj/wklej, żeby poznać tak nieskutecznie ukryte dane.

Jak wygląda zaczernianie tekstu w dokumentach PDF?

To jednak nie wszystko. W przypadku zaczerniania tekstu metodą zakrywania fragmentów (zwykle czarnym prostokątem) mamy do czynienia z dodawaniem do pliku kolejnej warstwy. Co oznacza, że nawet jeśli nie będziemy mieli dostępu do oryginalnego pliku (np. zostanie on udostępniony w systemie VDR w trybie tylko do odczytu), to mechanizm ładowania takiego dokumentu może na krótki czas wyświetlić użytkownikowi treść, która miała być niewidoczna. Stanie się tak dlatego, ponieważ mamy do czynienia z wieloma warstwami zgromadzonymi w jednym pliku – system będzie ładował je od tej położonej „najniżej” (czyli od oryginalnej treści dokumentu) do tych położonych „wyżej” (czyli do dodanych później elementów, takich jak właśnie zaczerniony pasek).

Anonimizacja PDF - jak skutecznie zaczerniać dokumenty?

Trzeba pamiętać, że do skutecznego zaczerniania odpowiednich danych w dokumentach w wersji cyfrowej konieczne jest nie przesłonięcie treści, ale ich usunięcie. Póki nie mamy pewności, że treść została usunięta, nie możemy być również pewni, że anonimizację można uznać za udaną. Za przykład może posłużyć cenzurowanie PDF-ów.

Program Adobe Acrobat Pro DC (wersja płatna najpopularniejszej przeglądarki dokumentów w formacie PDF) posiada wbudowaną funkcję redagowania treści dokumentów w formacie PDF. Przy jej pomocy, po zaznaczeniu odpowiednich słów, fragmentów tekstu czy całych stron, program automatycznie dokona usunięcia tych treści z dokumentu. Po zapisaniu pliku i jego ponownym otwarciu nie będzie już możliwości dotarcia do usuniętych treści. W ten sposób zaczerniony plik można bez przeszkód udostępniać osobom trzecim. Trzeba jednak pamiętać, że wciąż we właściwościach dokumentu mogą znajdować się dodatkowe informacje na jego temat i warto je usunąć. Anonimizacja dokumentów PDF z zachowaniem oryginalnego formatu jest więc zadaniem przeznaczonym dla bardziej zaawansowanych użytkowników.

Zaczernianie tekstu w PDF można jednak uprościć. Jeżeli nie dysponujemy Adobe Acrobat Pro DC i/lub mamy do zanonimizowania mniejszą liczbę dokumentów, możemy dokonać tego ręcznie poprzez eksport dokumentu np. do pliku jpg. Taki dokument (czy też de facto plik graficzny) powinniśmy następnie otworzyć w programie pozwalającym na podstawową edycję tego rodzaju plików (np. IrfanView, GIMP, a nawet zwykły Paint). Przy użyciu narzędzia do wycinania fragmentów obrazka należy dokonać odpowiedniej edycji pliku (zaznaczając i wycinając słowa/fragmenty, które zawierają wrażliwe dane). Tak zmodyfikowany plik następnie zapisujemy w formacie graficznym lub konwertujemy z powrotem do pierwotnego formatu. Przygotowane w ten sposób pliki są również gotowe do załadowania do systemu Virtual Data Room. O tym jak FORDATA VDR może stać się firmowym repozytorium dokumentów piszemy w artykule „Co to jest elektroniczne repozytorium dokumentów”.

Właściwe zaczernianie danych niewątpliwie może stwarzać trudności. Dlatego przed podjęciem się tego zadania warto w pierwszej kolejności przetestować dostępne rozwiązania i upewnić się, że działają one bez zarzutu. W końcu nawet najbezpieczniejszy kanał wymiany dokumentacji nie spełni swojej roli, jeśli treść np. pliku PDF zawierającego poufne informacje personalne chronione przez RODO, padnie ofiarą źle nałożonego “pisaka”.

Najbezpieczniejsze miejsce dla Twoich danych

FORDATA Virtual Data Room - korzystaj bezpłatnie przez 14 dni!

Jeśli artykuł był dla Państwa wartościowy, proszę o udostępnienie dalej, np. poprzez Facebook czy LinkedIn!
Share on facebook
Facebook
Share on linkedin
LinkedIn

Zdjęcie główne: Unsplash.com

Może Cię też zainteresować
Miłosz Cybowski

Analityk Aplikacji / Lider Zespołu
[email protected]

Michał Błażejewicz

Fullstack .NET Developer
[email protected]

Spodobało Ci się?
Udostępnij!
Share on facebook
Facebook
Share on linkedin
LinkedIn
Najczęściej czytane
Ta strona używa ciasteczek (cookies), dzięki którym nasz serwis może działać lepiej. Nie akceptuję / AKCEPTUJĘ Polityka prywatności