27 . 02 . 2020

DOBRE PRAKTYKI Zaczernianie tekstu w dokumentach PDF - jak robić to dobrze?

27 . 02 . 2020

Anonimizacja anonimizacji nierówna – może się okazać, że zaczernienie tekstu w naszym dokumencie, które na pierwszy rzut oka wygląda na stuprocentowo skuteczne, w rzeczywistości jest pułapką narażającą naszą firmę na poważne niebezpieczeństwo. Na co warto zwrócić uwagę podczas zaczerniania dokumentów?

„Wszyscy oficerowie przebywający w szpitalu mieli obowiązek cenzurowania listów pacjentów-szeregowców (…). Było to nudne zajęcie i Yossarian doznał zawodu, przekonawszy się, że życie szeregowców jest niewiele ciekawsze niż życie oficerów. (…) aby się nieco rozerwać, zaczął sobie wymyślać zabawy. Pewnego razu zaczernił wszystko z wyjątkiem słów “Kochana Mary”.”

Powyższy cytat z powieści „Paragraf 22” Josepha Hellera przedstawia praktykowany przez lata sposób ukrywania treści dokumentów – choć zaprezentowany w celowo prześmiewczym kontekście – gdzie niepożądany fragment tekstu po prostu zostaje zamazany czarnym pisakiem. Dzisiaj również korzystamy z zaczerniania jako jednej z metod ochrony danych, a dokumenty zawierające treści nie nadające się do ujawnienia wysyłamy przy tym drogą cyfrową. Warto pamiętać, że w odsłonie cyfrowej metoda ta wiąże się jednak z poważnymi zagrożeniami, a poprawnej metody posługiwania się “cyfrowym pisakiem” często trzeba się po prostu nauczyć. Zaczernianie dokumentów (zwane też białkowaniem; nazewnictwo wydaje się w przypadku tej praktyki dość swobodnie traktowane) służy różnym celom. Jest to m.in. jedna z form anonimizacji dokumentów. Nikomu nie byłoby do śmiechu, gdyby jego dane, wskutek niewłaściwie dokonanej anonimizacji, dostały się w niepowołane ręce. Administratorom i Procesorom Danych Osobowych grożą ponadto dotkliwe kary wynikające z ustawy o ochronie danych osobowych, w przypadku naruszenia anonimowości. Odpowiednio zastosowane zaczernianie ma w tym przypadku znaczenie kluczowe.

Zaczernianie przekształca dane w cyfrowym dokumencie w sposób uniemożliwiający (lub drastycznie utrudniający) odczytanie oryginalnej treści, na przykład identyfikację osoby fizycznej lub określonych informacji zawartych w dokumencie, poprzez nałożenie czarnego paska w miejscu, gdzie występuje tekst. Dziś najczęściej korzysta się w tym celu z opcji wbudowanych w oprogramowanie, a niekiedy ze specjalnych narzędzi obiecujących użytkownikom fachowe wymazanie danych z dokumentów. Jak pokazuje wiele przykładów z życia wziętych, nie zawsze jest to jednak tak proste, jak mogłoby się wydawać (weźmy po uwagę chociażby amerykański raport dot. śmierci generała Nicola Calipariego).

Skąd biorą się problemy z zaczernianiem w dokumentach elektronicznych?

Problemy związane z niedostatecznym lub nieumiejętnym zaczernianiem dokumentów można podzielić na dwie kategorie. Pierwsza z nich to brak świadomości, że wiele plików poza swoją główną treścią, którą widzimy na ekranie, zawiera także właściwości (lub metadane). W efekcie nawet jeżeli usuniemy najbardziej oczywiste i widoczne informacje z treści dokumentu, może istnieć sposób na dotarcie do nich na podstawie danych zawartych we właściwościach samego pliku. Jest to szczególnie istotne w przypadku udostępniania całych plików, a nie tylko ich treści. Istnieją w tym przypadku, rzecz jasna, odpowiednie metody ochrony. Jedną z opcji oferowaną przez system FORDATA jest udostępnianie użytkownikom wyłącznie treści dokumentów, bez możliwości pobrania ich na dysk. Dzięki temu nawet jeżeli we właściwościach pliku zapisane zostały poufne informacje, nie będą one dostępne dla oglądającego treść.

Druga kategoria problemów związanych z anonimizacją polega na nieskutecznym zaczernianiu tekstu samego dokumentu. Wiele metod polega nie na usuwaniu, ale na zakrywaniu odpowiednich fragmentów tekstu. W żaden sposób nie wpływa to na samą treść, która wciąż znajduje się pod nałożonym zaczernieniem – w efekcie wystarczy zwykłe narzędzie do zaznaczania tekstu i przekopiowanie treści do innego pliku, żeby poznać ukryte informacje. To samo dotyczy innych prób ukrywania treści, jak chociażby zmiana koloru tła wyświetlanego tekstu na czarny czy zmiana koloru czcionki na biały. Na oko treść będzie niewidoczna, ale wystarczy zwykłe zaznaczenie i komenda kopiuj/wklej, żeby poznać tak nieskutecznie ukryte dane.

Jak wygląda zaczernianie tekstu w dokumentach PDF?

To jednak nie wszystko. W przypadku zaczerniania tekstu metodą zakrywania fragmentów (zwykle czarnym prostokątem) mamy do czynienia z dodawaniem do pliku kolejnej warstwy. Co oznacza, że nawet jeśli nie będziemy mieli dostępu do oryginalnego pliku (np. zostanie on udostępniony w systemie VDR w trybie tylko do odczytu), to mechanizm ładowania takiego dokumentu może na krótki czas wyświetlić użytkownikowi treść, która miała być niewidoczna. Stanie się tak dlatego, ponieważ mamy do czynienia z wieloma warstwami zgromadzonymi w jednym pliku – system będzie ładował je od tej położonej „najniżej” (czyli od oryginalnej treści dokumentu) do tych położonych „wyżej” (czyli do dodanych później elementów, takich jak właśnie zaczerniony pasek).

Anonimizacja PDF - jak skutecznie zaczerniać dokumenty?

Trzeba pamiętać, że do skutecznego zaczerniania odpowiednich danych w dokumentach w wersji cyfrowej konieczne jest nie przesłonięcie treści, ale ich usunięcie. Póki nie mamy pewności, że treść została usunięta, nie możemy być również pewni, że anonimizację można uznać za udaną. Za przykład może posłużyć cenzurowanie PDF-ów.

Program Adobe Acrobat Pro DC (wersja płatna najpopularniejszej przeglądarki dokumentów w formacie PDF) posiada wbudowaną funkcję redagowania treści dokumentów w formacie PDF. Przy jej pomocy, po zaznaczeniu odpowiednich słów, fragmentów tekstu czy całych stron, program automatycznie dokona usunięcia tych treści z dokumentu. Po zapisaniu pliku i jego ponownym otwarciu nie będzie już możliwości dotarcia do usuniętych treści. W ten sposób zaczerniony plik można bez przeszkód udostępniać osobom trzecim. Trzeba jednak pamiętać, że wciąż we właściwościach dokumentu mogą znajdować się dodatkowe informacje na jego temat i warto je usunąć. Anonimizacja dokumentów PDF z zachowaniem oryginalnego formatu jest więc zadaniem przeznaczonym dla bardziej zaawansowanych użytkowników.

Nie zawsze polityka firmy pozwala na pobieranie dodatkowych oprogramowań. Właściwe zaczernianie danych niewątpliwie może stwarzać trudności. Dlatego warto stawiać na rozwiązania przetestowane, które pozwalają na zachowanie wysokich standardów bezpieczeństwa. Takim rozwiązaniem jest wbudowane w Fordata VDR narzędzie Redaction Tool, które pozwala na anonimizację plików w 18 różnych formatach, w tym plików Excel, Word, PowerPoint czy PDF bezpośrednio w VDR, korzystając z szeregu automatyzacji. Fordata jest jedynym dostawcą Virtual Data Room, który umożliwia anonimizację plików Excel. Dzięki niemu, użytkownicy VDR mogą zachować pełną kontrolę nad swoimi dokumentami, jednocześnie eliminując potencjalne ryzyko wycieku poufnych informacji. Szczegółowe informacje o możliwościach Redaction tool znajdziesz w artykule „Redaction tool – co, jak i dlaczego?”.

Idą krok dalej, warto też wziąć pod uwagę rozwiązanie wsparte mechanizmami sztucznej inteligencji – AI-Powered Redaction Tool, które skraca czas i zwiększa precyzję w zaczernianiu wrażliwych informacji. Narzędzie AI-Powered Redaction Tool wbudowane w Fordata VDR zostało zaprojektowane tak, aby automatycznie wykrywać i zaczerniać aż 19 różnych typów informacji, włączając w to wszystkie dane osobowe zgodne z RODO (tzw. PII), dane finansowe i urzędowe w formatach globalnych (tzw. PHI) oraz słowa w różnych odmianach gramatycznych, w niemal 80 językach. Dzięki temu proces anonimizacji staje się bardziej skuteczny, przyczyniając się do zachowania prywatności i bezpieczeństwa danych na szeroką skalę.

Artykuł został zaktualizowany 26.02.2024.

Ile głów, tyle pomysłów. Właśnie dlatego każdy z nas dokłada swoją cegiełkę, by zamieszczone treści na naszym blogu były dla Ciebie atrakcyjne i niosły wartość. Odkryj źródło wiedzy i inspiracji dla Twojego biznesu z Fordata.

Chcesz wymienić się wiedzą, podyskutować, zadać pytanie?

Napisz do mnie : #FORDATAteam strona otworzy się w nowym oknie

Najbezpieczniejsze miejsce dla Twoich danych. FORDATA Virtual Data Room - korzystaj bezpłatnie przez 14 dni!

ZACZYNAMY Testuj bezpłatnie przez 14 dni
Może Cię zainteresować