지난주, 보내려던 PDF의 메타데이터를 확인했습니다. 거기에는 여전히 제 전체 이름, 회사 내부 파일 경로, 그리고 지난 한 달간 모든 수정의 정확한 타임스탬프가 남아 있었습니다.
페이지는 깨끗해 보였습니다. 하지만 파일은 그렇지 않았습니다.
대부분의 사람들은 PDF를 공유하기 전에 속성 패널을 열어보지 않습니다. 눈에 보이는 콘텐츠에 모든 관심이 집중됩니다. 하지만 파일 자체는 페이지에 인쇄된 것보다 훨씬 더 많은 것을 말해줄 수 있으며, 이 숨겨진 레이어가 바로 이 글의 주제입니다.
간단한 답변
PDF 메타데이터에는 이름, 사용한 소프트웨어, 생성 및 수정 타임스탬프, 수정 이력, 주석, 심지어 포함된 이미지의 GPS 좌표까지 포함될 수 있습니다.
이를 제거하려면 몇 가지 선택지가 있습니다:
- 메타데이터 편집기나 정리 도구를 사용하여 특정 필드를 제거
- exiftool 같은 명령줄 도구를 사용하여 완전히 제어
- PDF를 스캔 스타일의 이미지 기반 파일로 변환하여 전체 문서 구조를 교체하고 모든 숨겨진 데이터를 한 번에 제거
문서가 최종본이고 조직 외부로 나가는 경우, 마지막 선택지가 가장 철저한 단일 단계입니다.
PDF 메타데이터에 실제로 포함되는 것
PDF는 페이지에 보이는 내용 외에 세 가지 레이어의 정보를 가질 수 있습니다.
첫 번째 레이어는 문서 속성입니다. 대부분의 사람들이 떠올리는 메타데이터입니다: 작성자 이름, 제목, 주제, 생성 날짜, 수정 날짜, 파일을 생성한 소프트웨어. 아무 PDF 뷰어에서 파일을 열고 “파일 > 속성"을 확인하면 “작성자: 홍길동"이나 “생성기: Microsoft Word 2021” 같은 필드를 볼 수 있을 것입니다. 이 정보는 파일과 함께 어디든 전파됩니다.
두 번째 레이어는 XMP 및 포함된 메타데이터입니다. 덜 눈에 띄지만 종종 더 많은 것을 드러냅니다. PDF에 포함된 이미지가 있는 경우, 해당 이미지에는 카메라 모델, 타임스탬프, GPS 좌표를 포함한 원본 EXIF 데이터가 여전히 남아 있을 수 있습니다. XMP 메타데이터에는 편집 이력, 사용자 정의 태그, 글꼴 라이선스 정보도 포함될 수 있습니다. 표준 PDF 뷰어에서는 이 레이어가 표시되지 않기 때문에 대부분의 사람들은 그 존재를 모릅니다.
세 번째 레이어는 숨겨진 구조 데이터입니다. PDF가 생성되고 편집된 방식에 따라, 파일에는 수정 이력, 삭제되었지만 복구 가능한 텍스트, 주석, 주해, 양식 필드 기본값, 숨겨진 레이어, JavaScript, 포함된 파일 첨부가 들어 있을 수 있습니다. 유출 시 가장 큰 피해를 주는 레이어인데, 작성자가 제거했다고 생각한 콘텐츠가 포함되어 있을 수 있기 때문입니다.
웹 도구에 파일을 업로드하는 맥락에서 이런 종류의 숨겨진 데이터에 대해 생각해 본 적이 있다면, 온라인 PDF 도구로 민감한 문서를 처리해도 안전한가요?에서 더 광범위한 신뢰 모델을 다루고 있습니다.
사람들이 생각하는 것보다 더 중요한 이유
메타데이터 유출은 극적이지 않습니다. 조용하고, 구체적이며, 파일이 공유된 후에는 되돌리기 어렵습니다.
익명성이 필요한 경우의 작성자 식별. PDF가 특정인에 의해 작성된 경우, 작성자 필드나 내부 파일 경로를 통해 그 사람을 추적할 수 있습니다. 이는 내부 고발자, 익명 보고서, 유출 문서, 또는 발신자의 신원이 파일에 포함되어서는 안 되는 모든 상황에서 중요합니다.
수정 이력이 협상 전략을 노출. 변경 추적이나 수정 메타데이터가 여전히 포함된 계약 PDF는 당신의 초기 입장, 삭제한 내용, 최종 버전을 보내기 전에 완화한 내용을 드러낼 수 있습니다. 상대방이 이를 발견하는 데 기술 능력이 필요하지 않습니다. 일부 PDF 뷰어는 수정 데이터를 자동으로 표시합니다.
타임스탬프가 민감한 시간 정보를 드러냄. 생성 및 수정 날짜는 문서가 언제 시작되었는지, 언제 마지막으로 변경되었는지, 몇 번이나 작업되었는지를 알려줍니다. 법률, 컴플라이언스, 경쟁 맥락에서 이런 종류의 시간 정보는 콘텐츠 자체보다 더 중요할 수 있습니다.
포함된 이미지의 GPS 좌표. PDF에 사진을 붙여넣었는데 그 사진에 여전히 EXIF 위치 데이터가 있다면, 이미지가 촬영된 GPS 좌표가 파일에 포함됩니다. 메타데이터가 이미지 객체 내부에 존재하고 PDF 속성 패널에는 표시되지 않기 때문에 대부분의 사람들은 이를 인지하지 못합니다.
소프트웨어 버전이 내부 도구를 노출. “생성기: Adobe Acrobat Pro DC 24.1.30225"이나 “작성기: Microsoft Word for Microsoft 365” 같은 필드는 조직에서 어떤 도구와 버전을 사용하는지 알려줍니다. 대부분의 문서에서는 사소한 일입니다. 하지만 민감한 맥락에서는 불필요한 정보 유출입니다.
이것들은 어느 것도 가설이 아닙니다. 실제로 일어나는, 평범한 메타데이터 유출입니다.
PDF에 포함된 메타데이터를 확인하는 방법
무엇이든 제거하기 전에, 파일에 실제로 무엇이 있는지 확인하세요.
PDF 뷰어 속성 대화 상자. 대부분의 PDF 리더에서 “파일 > 속성” 또는 “문서 속성"을 선택하면 기본 필드(작성자, 제목, 주제, 생성 날짜, 수정 날짜, 생성 애플리케이션)가 표시됩니다. 첫 번째 레이어는 포착할 수 있지만 나머지 거의 모든 것을 놓칩니다.
명령줄의 exiftool. exiftool document.pdf를 실행하면 모든 것이 표시됩니다: 문서 속성, XMP 데이터, 포함된 이미지의 EXIF, 사용자 정의 필드. 가장 완전한 검사 방법이지만 터미널에 익숙해야 합니다. 이전에 사용해 본 적이 없더라도, 하나의 PDF에 얼마나 많은 정보가 포함될 수 있는지 확인하기 위해서만이라도 설치할 가치가 있습니다.
온라인 메타데이터 뷰어. 일부 웹사이트에서는 PDF를 업로드하여 메타데이터를 검사할 수 있습니다. 메타데이터를 확인하는 이유가 개인정보 보호라면, 파일을 제3자 서비스에 업로드하여 검사하는 것은 의심스러운 행위입니다. 파일이 정보를 유출하는지 알아보려 하면서 첫 번째 단계로 낯선 사람에게 파일을 보내고 있는 것입니다.
파일에 무엇이 있는지 알게 되면, 문제는 그것을 어떻게 제거하느냐입니다.
PDF 메타데이터를 제거하는 방법
단일 최선의 방법은 없습니다. 올바른 선택은 무엇을 유지해야 하는지와 얼마나 철저해야 하는지에 따라 달라집니다.
Adobe Acrobat (문서 정리)
Acrobat Pro에는 “숨겨진 정보 제거"와 “문서 정리” 기능이 포함되어 있어 메타데이터, 숨겨진 텍스트, 주석, 양식 데이터, 첨부 파일 및 기타 비표시 콘텐츠를 제거할 수 있습니다. 텍스트 레이어를 유지하고 파일을 검색 가능하게 보존해야 한다면, 가장 완전한 접근법 중 하나입니다.
제한 사항은 유료 Acrobat Pro 라이선스가 필요하다는 것입니다. 이미 보유하고 있다면 훌륭한 선택입니다. 그렇지 않다면, 이 문제만으로 구독을 정당화하기는 어렵습니다.
exiftool 및 기타 CLI 도구
exiftool은 특정 메타데이터 필드를 정밀하게 제거하거나 하나의 명령으로 PDF에서 모든 것을 제거할 수 있습니다. 무료이고, 모든 플랫폼에서 작동하며, 제거할 내용을 정확하게 제어할 수 있습니다.
제한 사항은 기술적 진입 장벽입니다. 또한 구조적 숨겨진 데이터가 아닌 메타데이터 필드에 초점을 맞춥니다. PDF에 수정 이력, 숨겨진 레이어, 포함된 객체가 있는 경우 exiftool은 이를 포착하지 못합니다. 자신이 잘하는 영역에서는 뛰어나지만, 모든 레이어를 커버하지는 않습니다.
온라인 메타데이터 제거 도구
여러 웹사이트에서 PDF를 업로드하고, 메타데이터를 제거하고, 정리된 버전을 다운로드할 수 있습니다. 작업 흐름이 간단하고 소프트웨어 설치가 필요 없습니다.
제한 사항은 분명합니다. 개인정보 보호 문제를 해결하기 위해 제3자 서버에 문서를 업로드하고 있는 것입니다. 이는 마치 자신의 일기를 낯선 사람에게 건네주고 주소가 적힌 페이지를 찢어달라고 하는 것과 같습니다.
파일이 저위험이라면 허용 가능한 트레이드오프일 수 있습니다. 문서가 민감해서 메타데이터를 제거하는 것이라면, 이 접근법은 정확히 당신이 피하려는 종류의 노출을 초래합니다. 이 트레이드오프에 대해 더 알고 싶다면, 온라인 PDF 도구로 민감한 문서를 처리해도 안전한가요?에서 자세히 다루고 있습니다.
PDF로 인쇄
가상 프린터를 통해 PDF를 다시 인쇄하면 일부 메타데이터를 제거하고 특정 요소를 평탄화한 새 파일이 생성됩니다. 무료이며 대부분의 운영 체제에 내장되어 있습니다.
결과는 일관성이 없습니다. 일부 가상 프린터는 출력에 자체 메타데이터를 삽입합니다. XMP 데이터를 제거하는 것도 있고 그렇지 않은 것도 있습니다. 포함된 이미지의 EXIF가 이 과정을 거치고도 남아 있을 수도 있고 아닐 수도 있습니다. 이 방법을 사용한다면, 깨끗하다고 가정하지 말고 항상 결과를 확인하세요.
스캔 스타일 PDF로 변환
이 접근법은 PDF의 각 페이지를 이미지로 변환한 다음 해당 이미지를 새 PDF로 묶습니다. 전체 문서 구조가 교체되므로 모든 숨겨진 데이터가 제거됩니다: 메타데이터, 텍스트 레이어, 주석, 수정 이력, 포함된 파일, 양식 필드, JavaScript, 모든 것입니다. 출력은 렌더링된 페이지 이미지만 포함하는 새 PDF입니다.
트레이드오프는 파일이 더 이상 텍스트 검색이 되지 않는다는 것입니다. 각 페이지의 사진처럼 동작합니다. 최종본이고 조직 외부로 나가는 문서에는 이 트레이드오프가 대체로 가치 있습니다. 여전히 검색, 인용, 하류 편집이 필요한 문서에는 적합하지 않습니다.
이것이 Look Scanned가 하는 일입니다. 브라우저에서 로컬로 PDF를 스캔 스타일 버전으로 변환하므로 파일이 기기를 떠나지 않습니다. 결과는 숨겨진 데이터도, 텍스트 레이어도, 원본의 메타데이터도 없는 깨끗한 이미지 기반 PDF입니다. 서버 측 처리에 대한 걱정도 필요 없습니다.
비교
| 방법 | 문서 속성 제거 | 숨겨진 레이어 제거 | 이미지 EXIF 제거 | 텍스트 검색 유지 | 업로드 필요 | 비용 |
|---|---|---|---|---|---|---|
| Adobe Acrobat (정리) | 예 | 예 | 설정에 따라 다름 | 예 | 아니요 | 유료 |
| exiftool / CLI | 예 | 부분적 | 예 | 예 | 아니요 | 무료 |
| 온라인 메타데이터 도구 | 보통 예 | 보통 아니요 | 경우에 따라 | 예 | 예 | 무료 |
| PDF로 인쇄 | 부분적 | 부분적 | 경우에 따라 | 보통 예 | 아니요 | 무료 |
| 스캔 스타일 변환 (예: Look Scanned) | 예 | 예 | 예 | 아니요 | 아니요 (로컬 브라우저) | 무료 |
모든 상황에 완벽한 행은 없습니다. 질문은 항상 이 특정 파일에 대해 어떤 트레이드오프가 중요한가입니다.
각 접근법이 적합한 경우
문서가 아직 작업 중인 경우. Acrobat이나 exiftool로 메타데이터를 제거합니다. 텍스트 레이어를 유지합니다. 이 단계에서의 메타데이터 제거는 일상적인 관리이지 주요 이벤트가 아닙니다.
문서가 최종본이고 조직 외부로 나가는 경우. 검색 가능성이 중요하지 않다면, 스캔 스타일 변환이 가장 철저한 단일 단계입니다. 한 번에 모든 것을 제거합니다. 파일이 여전히 검색 가능해야 한다면, 대신 Acrobat의 정리 기능을 사용하고 결과를 확인하세요.
문서가 매우 민감한 경우. 접근법을 조합합니다. 먼저 적절한 편집(redaction)을 수행하고, 그다음 메타데이터를 정리하고, 마지막으로 스캔 스타일 변환을 합니다. 각 단계가 서로 다른 레이어를 커버합니다. 편집이 작업 흐름의 일부라면, 검은 막대는 편집이 아닙니다에서 시각적 마스킹만으로는 왜 충분하지 않은지 설명합니다.
파일에 무엇이 있는지 모르는 경우. 먼저 exiftool이나 속성 패널로 확인합니다. 그런 다음 발견한 내용과 파일이 향하는 곳을 기반으로 결정합니다. 무엇을 제거해야 하는지 이해하기 전에 제거 방법을 선택하면 과잉 대응이나 데이터 누락으로 이어집니다.
스캔 스타일 PDF가 당신의 상황에 적합한 형식인지 검토 중이라면, 스캔 PDF vs 편집 가능한 PDF: 어떤 것을 보내야 할까?에서 그 결정을 더 광범위하게 다루고 있습니다.
제가 실제로 사용하는 작업 흐름
- 먼저 문서 내용을 완성합니다. 아직 변경 중인 파일에서 메타데이터를 정리하지 마세요.
- 최종 내보내기의 메타데이터를 확인합니다. 최소한 “파일 > 속성"을 확인합니다. 중요한 경우 exiftool을 사용합니다.
- 발견한 내용과 목적지의 민감도를 기반으로 제거 또는 정리합니다.
- 파일이 외부로 나가고 검색 가능할 필요가 없다면, 스캔 스타일 PDF로 변환합니다. Look Scanned가 파일을 업로드하지 않고 브라우저에서 이 단계를 처리합니다.
- 새로운 뷰어에서 결과를 열어 확인합니다. 속성을 확인하고, 텍스트 선택을 시도하고, 사라져야 할 용어를 검색합니다.
마지막 단계에서 사람들이 예상하는 것보다 더 많은 잔여 데이터가 발견됩니다.
평탄화가 당신의 상황에 충분하고 전체 스캔 스타일 변환이 필요 없다면, 보내기 전에 PDF를 평탄화하는 방법에서 그 중간 단계를 다루고 있습니다.
자주 묻는 질문
스캔 PDF로 변환하면 모든 메타데이터가 제거되나요?
예. 이미지 기반 PDF로 변환하면 전체 파일 구조가 교체됩니다. 결과에는 텍스트 레이어, 숨겨진 객체, 원본의 문서 속성, 포함된 파일 메타데이터가 포함되지 않습니다. 출력은 렌더링된 페이지 이미지만 포함하는 새 PDF입니다.
스캔 스타일 PDF에서 메타데이터를 복구할 수 있나요?
PDF 자체에서는 복구할 수 없습니다. 원본 구조는 사라졌습니다. 새 파일에서 유일한 메타데이터는 변환 도구가 기록한 것(자체 생성기 태그 등)뿐입니다. 변환이 브라우저에서 로컬로 이루어진 경우, 서버 측 복사본도 존재하지 않습니다.
메타데이터 제거와 편집(redaction)은 같은 건가요?
아닙니다. 메타데이터 제거는 숨겨진 속성과 문서 수준 데이터를 제거합니다. 편집은 페이지의 보이는 콘텐츠를 제거합니다. 페이지 자체에서 이름, 숫자, 텍스트를 제거해야 한다면, 메타데이터 정리 전에 수행해야 하는 별도의 단계입니다. 검은 막대는 편집이 아닙니다에서 시각적 마스킹만으로는 왜 충분하지 않은지 설명합니다.
보내는 모든 PDF에서 메타데이터를 제거해야 하나요?
반드시 그럴 필요는 없습니다. 이미 공개되었거나 저위험인 일상적인 문서에서 메타데이터는 무해합니다. 문서가 민감하거나, 수신자가 외부인이거나, 작성자의 신원이 파일에 포함되어서는 안 되는 경우에 이 문제가 중요해집니다.
마지막 생각
대부분의 사람들은 PDF를 보내기 전에 파일이 자신에 대해 무엇을 말하는지 확인하지 않습니다.
파일은 깨끗할 수도 있습니다. 혹은 당신의 이름, 수정 이력, 그리고 지난 화요일에 편집했던 카페의 GPS 좌표가 포함되어 있을 수도 있습니다.
문서가 신중하게 공유할 만큼 중요하다면, 확인할 만큼 중요합니다. 그리고 확인 결과 예상보다 많은 것이 발견된다면, 보내기 버튼을 누르기 전에 수정할 수 있는 간단한 방법이 있습니다.