pdf에서 역으로 리소스를 뽑아 전자책으로 만드는 작업
AI와 함께
1
게시물
1
작성자
28
조회수
1
Watching
-

pdf 를 역으로 리소스를 뽑아내는 작업을 하고 있습니다. 앞으로 전자책을 해야해서 몇가지 작업을 통해서 이미지 학습 및 슬라이스를 할 수 있게 바꾸고 역으로 이미지, 벡터, 폰트, 마스크, 텍스트 리소스를 다 추출해 냈습니다.OCR + OCR후 다시 연결되는 블록단위의 글자도 분리해 내서 리소스를 빼내고 다시 몇가지 방식으로 구분해서 2중처리를 합니다.

역으로 인디자인 파일포맷인 idml 로 레이어로 좌표정보를 가지고 데이터 구성을 할 수 있게 합니다. 앞으로 idml 포맷을 정교화해서 직렬화할 수 있게 할 생각입니다.


로고도 이미지로 뽑아내고 다시 SVG로 벡터라이징해서 메모리를 줄이게 처리합니다.어찌됐건 xml 레이아웃 구조도 출력해서 svg, pdf 등 레이아웃이 가능한 모든 이미지 구성이 가능합니다.
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd"> <pdf2xml producer="poppler" version="25.12.0"> <page number="1" position="absolute" top="0" left="0" height="1016" width="2255"> <fontspec id="0" size="15" family="VTYMWH+NotoSerifCJKsc" color="#231f20"/> <fontspec id="1" size="18" family="VTYMWH+NotoSerifCJKsc" color="#231f20"/> <fontspec id="2" size="12" family="VTYMWH+NotoSerifCJKsc" color="#231f20"/> <fontspec id="3" size="14" family="VTYMWH+NotoSansKR" color="#231f20"/> <fontspec id="4" size="28" family="VTYMWH+NotoSerifCJKsc" color="#5a5757"/> <fontspec id="5" size="18" family="VTYMWH+NotoSansKR" color="#ffffff"/> <fontspec id="6" size="14" family="VTYMWH+NotoSansKR" color="#ffffff"/> <fontspec id="7" size="18" family="ULOGIJ+NotoSerifCJKsc" color="#fff100"/> <fontspec id="8" size="23" family="ULOGIJ+NotoSerifCJKsc" color="#fff100"/> <fontspec id="9" size="21" family="ULOGIJ+NotoSerifCJKsc" color="#fff100"/> <fontspec id="10" size="23" family="ULOGIJ+TimesNewRomanPS" color="#ffffff"/> <fontspec id="11" size="7" family="ULOGIJ+Gulim" color="#000000"/> <fontspec id="12" size="7" family="ULOGIJ+ArialMT" color="#000000"/> <fontspec id="13" size="9" family="ULOGIJ+AppleGothic" color="#000000"/> <image top="140" left="170" width="185" height="232" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_1.jpg"/> <image top="140" left="1896" width="186" height="231" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_2.jpg"/> <image top="423" left="531" width="264" height="164" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_3.jpg"/> <image top="591" left="531" width="264" height="164" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_4.jpg"/> <image top="759" left="531" width="264" height="164" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_5.jpg"/> <image top="41" left="858" width="930" height="935" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_6.jpg"/> <image top="41" left="858" width="930" height="935" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_7.jpg"/> <image top="890" left="1424" width="75" height="28" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_8.png"/> <image top="166" left="1103" width="49" height="397" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_9.png"/> <image top="165" left="1102" width="49" height="397" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_10.png"/> <image top="175" left="1212" width="507" height="165" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_11.png"/> <image top="173" left="1209" width="507" height="165" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_12.png"/> <image top="847" left="1113" width="28" height="71" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_13.png"/> <image top="834" left="900" width="142" height="66" src="/Volumes/2TB_SSD/book/sample/_1933년 봄, 한중일 종이 타임머쉰_20250626 표지504.4x213-1_14.png"/> <text top="414" left="103" width="29" height="22" font="0">역자</text> <text top="453" left="103" width="73" height="22" font="0">요산(樂山) </text> <text top="450" left="175" width="117" height="26" font="1">윤재환(尹財煥)</text> <text top="453" left="291" width="64" height="22" font="0"> 1962년생</text> <text top="487" left="103" width="249" height="17" font="2">문학박사, 동방대학원대학교 문화예술콘텐츠학과</text> <text top="503" left="103" width="95" height="17" font="2">백제초등학교 졸업</text> <text top="520" left="103" width="83" height="17" font="2">부여중학교 졸업</text> <text top="536" left="103" width="117" height="17" font="2">천안북일고등학교 졸업</text> <text top="553" left="103" width="132" height="17" font="2">서강대학교 경영학과 졸업</text> <text top="569" left="103" width="192" height="17" font="2">고려대학교 일반대학원 경영학과 졸업</text> <text top="602" left="103" width="230" height="17" font="2">(주)대우 외환부, 섬유경공업사업개발팀 근무</text> <text top="619" left="103" width="129" height="17" font="2">구 러시아 무역업(자영업)</text> <text top="635" left="103" width="140" height="17" font="2">(주)녹십자 기획조정실 근무</text> <text top="652" left="103" width="186" height="17" font="2">(사)한국종이접기협회 사무국장 역임</text> <text top="668" left="103" width="140" height="17" font="2">(사)문화우리 사무국장 역임</text> <text top="685" left="103" width="177" height="17" font="2">(주)도서출판 종이나라 이사 역임 </text> <text top="701" left="103" width="292" height="17" font="2">(재)한중일비교문화연구소(이사장 이어령) 사무국장 역임</text> <text top="718" left="103" width="283" height="17" font="2">경기디지로그 창조학교(명예교장 이어령) 전문위원 역임</text> <text top="734" left="103" width="354" height="17" font="2">이문학회(http://cafe.daum.net/imoon90) (설립자 노촌 이구영) 총무 역임 </text> <text top="751" left="103" width="260" height="17" font="2">민학회(http://www.minhak.or.kr) 총무이사 역임</text> <text top="767" left="103" width="242" hei뭐에 쓰냐면요 epub을 빨리 많이 가능하면 원본에 가깝게 취미쪽 책은 이미지 위에 텍스트가 올라가거나 (유료>무료 폰트 수정) 원본을 다시 추출해서 다른 작업을 해야 하는데 리소스로 사용할 예정입니다. hwp, doc, odf, pdf, ppt, 등으로 오픈소스 프로그램을 직접컨트롤해서 데이터를 뺴고 바꾸고 전처리를 하고 있습니다.
indesign 데이터가 없이 인쇄용 pdf만 있어도 리소스를 다 추출해서 epub3 전자책 제작이 가능합니다.



