콘텐츠로 건너뛰기
  • 카테고리
  • 최근
  • 태그
  • 인기
  • World
  • 사용자
  • 그룹
스킨
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 기본 (스킨 없음)
  • 스킨 없음
축소

아르고나인 스튜디오

봄봄스쿨|A9press|생각정리연구소|ebook|만다라트|쇼핑|레고시리어스플레이|달력폰트|네모네모로직|스도쿠365| 글자나오는 미로찾기| 미로찾기| 매직아이
  1. 홈
  2. 자유게시판
  3. AI를 피해 데이터 줍는 노인 Z

AI를 피해 데이터 줍는 노인 Z

예약됨 고정됨 잠김 이동됨 자유게시판
1 게시물 1 작성자 1 조회수
  • 오래된 순
  • 최신 순
  • 가장 많은 투표
답글
  • 토픽으로 답글
로그인 후 답글 작성
이 토픽은 삭제되었습니다. 토픽 관리 권한이 있는 사용자만 볼 수 있습니다.
  • A 오프라인
    A 오프라인
    admin
    에 작성함 마지막 수정자:
    #1

    주요 요약

    dendy_kr_Data-gathering_old_age_As_AI_becomes_more_advanced_t_e2e7e26c-069d-4986-93b1-a4f311367bd0_0.png

    - AI가 웹 크롤링과 스크레이핑을 차단하면서 데이터 수집이 점점 어려워지고, 이는 결국 사람이 직접 데이터를 모으는 방식으로 바뀔 가능성이 높아 보입니다.

    - 연구에 따르면, 많은 웹사이트가 AI 크롤러를 차단하며, 이는 데이터 접근의 새로운 형태, 특히 인간처럼 행동하는 AI나 수작업으로의 전환을 촉진할 수 있습니다.

    - 이 변화는 데이터 수집의 비용과 효율성에 영향을 미치며, 연구자와 기업에 도전 과제를 안길 수 있습니다.

    - 예상치 못한 점은, 이 과정이 데이터 프라이버시 보호와 웹사이트 소유자의 지적 재산권 강화로 이어질 수 있다는 점입니다.

    ---

    데이터 수집의 변화와 인간화

    AI와 웹 플랫폼이 크롤링과 스크레이핑을 차단하면서, 데이터 수집 방식이 크게 변화하고 있습니다. 예를 들어, 쿠팡이나 네이버 같은 사이트는 robots.txt를 통해 봇 접근을 제한하고, 더 나아가 AI 기반 탐지 시스템으로 비정상적인 트래픽을 차단하고 있습니다. 이는 자동화된 데이터 수집이 어려워지면서, 데이터 수집이 마치 폐지 줍듯 사람이 직접 해야 하는 상황으로 전환될 가능성을 시사합니다.

    이러한 변화는 데이터 수집의 비용과 효율성에 영향을 미칩니다. 자동화가 막히면, 데이터 수집자들은 봇을 더 인간처럼 만들거나, 사람을 고용해 수작업으로 데이터를 모으는 방법으로 대응할 수 있습니다. 예를 들어, 크라우드소싱 플랫폼에서 데이터를 입력하거나 웹을 하나씩 뒤지는 방식이 늘어날 수 있습니다. 이는 비용이 증가하고 속도가 느려질 수 있지만, 법적·기술적 제약을 피할 수 있는 방법이 될 수 있습니다.

    이 변화는 연구자, 기업, 일반 사용자 모두에게 영향을 미칩니다. 연구자들은 대규모 데이터 접근이 어려워져 연구 속도가 느려질 수 있고, 기업은 데이터 기반 의사결정에 제약을 받을 수 있습니다. 반면, 웹사이트 소유자는 데이터 프라이버시와 지적 재산권 보호를 강화할 수 있습니다. 예를 들어, Top websites increasingly block AI Web Crawlers에 따르면, 주요 웹사이트의 35.7%가 GPTBot을 차단하고 있으며, 이는 프라이버시 우려가 커지고 있음을 보여줍니다.

    img_20200625165958_bf17f901.webp

    ---

    창과 방패: AI와 데이터 수집자 간의 대립

    이 상황은 마치 창과 방패의 싸움과 같습니다. AI는 데이터를 보호하기 위해 점점 더 정교한 차단 기술을 개발하고, 데이터 수집자들은 이를 우회하려는 새로운 방법을 찾습니다. 예를 들어, 데이터 수집자들은 헤드리스 브라우저를 사용해 인간의 브라우징 패턴을 모방하거나, 랜덤 한 요청 간격을 설정해 탐지를 피하려 합니다. 하지만 AI는 트래픽 패턴 분석과 행동 분석을 통해 이러한 시도를 차단합니다.

    결국, 이 싸움의 결과는 데이터 수집이 인간처럼, 또는 인간이 직접 하는 형태로 진화할 가능성을 높입니다. 이는 데이터의 가치를 더 높이고, 접근성이 제한되면서 데이터 소유자와 수집자 간의 협력이나 새로운 규제가 필요할 수 있습니다. Blocking of AI Crawlers on Major Websites: Implications and Trends에 따르면, 이 균형은 투명성과 책임성을 촉진하는 방향으로 나아갈 필요가 있습니다.

    ---

    GGTJqvqaIAAJDdk.jpg

    노인 Z 해커 할아버지

    ---

    보고서: AI 차단과 데이터 수집의 미래에 대한 심층 분석

    AI가 웹 크롤링과 스크레이핑을 차단하면서 데이터 수집 방식이 어떻게 변화할지, 특히 사람이 직접 데이터를 모으는 시대가 도래할 가능성에 대해 심도 있게 탐구해 보겠습니다. 이 보고서는 현재의 추세, 관련 사례, 그리고 미래 시나리오를 다루며, 사용자에게 필요한 모든 세부 정보를 제공합니다.

    현재 상황: AI와 플랫폼의 차단 전략

    현재 많은 웹사이트, 특히 쿠팡, 네이버 같은 대형 플랫폼은 데이터 수집을 막기 위해 다양한 기술을 사용하고 있습니다. 가장 일반적인 방법은 robots.txt 파일을 통해 크롤러가 접근할 수 있는 페이지를 제한하는 것입니다. 예를 들어, Major websites block AI crawlers from scraping their content에 따르면, 아마존, 뉴욕타임스, CNN 등 주요 사이트가 AI 크롤러를 차단하고 있습니다.

    또한, AI 기반 탐지 시스템이 점점 더 정교해지고 있습니다. 예를 들어, 클라우드플레어는 AI 스크레이퍼와 크롤러를 한 번의 클릭으로 차단할 수 있는 기능을 제공하며, Declare your AIndependence: block AI bots, scrapers and crawlers with a single click에서 이를 설명합니다. 이 시스템은 트래픽 패턴, 사용자 행동, 요청 속도 등을 분석해 봇을 탐지하며, 특히 Bytespider, Amazonbot, ClaudeBot 같은 AI 크롤러를 차단하는 데 효과적입니다.

    최근 연구에 따르면, 주요 웹사이트의 약 35.7%가 OpenAI의 GPTBot을 차단하고 있으며, 이는 2023년 8월 5%에서 크게 증가한 수치입니다 (Top websites increasingly block AI Web Crawlers). 이는 프라이버시 우려와 지적 재산권 보호를 위한 움직임으로, 뉴스 사이트의 48%가 OpenAI 크롤러를 차단하고 있다는 How many news websites block AI crawlers? 연구도 이를 뒷받침합니다.

    데이터 수집자의 대응: 인간화와 수작업

    이러한 차단 전략에 대응하기 위해 데이터 수집자들은 두 가지 주요 전략을 채택하고 있습니다. 첫째, 봇을 더 인간처럼 만들기입니다. 예를 들어, 헤드리스 브라우저(Headless Chrome 같은 도구)를 사용해 마우스 이동, 랜덤 한 클릭 간격 등을 모방하며 탐지를 피하려 합니다. 이는 비용이 높지만, 일부 성공 사례가 보고되고 있습니다.

    둘째, 수작업으로 전환하는 방법입니다. 크라우드소싱 플랫폼, 예를 들어 아마존 Mechanical Turk 같은 곳에서 사람을 고용해 데이터를 수집하는 방식이 늘어나고 있습니다. 이는 자동화된 크롤링이 막히더라도 법적·기술적 제약을 피할 수 있는 방법이지만, 시간과 비용이 많이 들며 효율성이 떨어집니다. AI Crawler Wars: How Web Scraping Is Closing the Open Internet에서는 이러한 변화가 오픈 인터넷의 폐쇄로 이어질 수 있다고 경고합니다.

    미래 시나리오: 데이터 수집의 인간화와 그 영향

    이러한 추세가 계속되면, 데이터 수집은 점점 더 인간처럼, 또는 사람이 직접 하는 형태로 진화할 가능성이 높습니다. 이는 다음과 같은 영향을 미칠 수 있습니다:

    - 연구자와 학계: 대규모 데이터 접근이 어려워져 연구 속도가 느려질 수 있습니다. 예를 들어, 기계 학습, 사회 과학, 경제학 연구에서 웹 데이터가 필수적인데, 수작업으로 전환되면 비용이 증가할 것입니다 (Many News Sites Are Blocking AI Web Crawlers, New Research Shows).

    - 기업: 데이터 기반 의사결정에 제약을 받을 수 있습니다. 특히 전자상거래 기업은 경쟁사 가격 정보, 사용자 행동 데이터를 수집하기 어려워질 수 있습니다. 이는 시장분석의 정확성을 떨어뜨릴 수 있습니다.

    - 일반 사용자: 데이터 수집 비용 증가로 인해 무료 또는 저렴한 데이터 기반 서비스가 줄어들 수 있습니다. 예를 들어, AI 검색 도구나 추천 시스템의 품질이 떨어질 가능성이 있습니다.

    반면, 긍정적인 측면도 있습니다. 데이터 프라이버시와 보안이 강화될 수 있습니다. 웹사이트 소유자는 자신의 콘텐츠가 무단으로 사용되지 않도록 보호받을 수 있으며, 이는 사용자 신뢰를 높이는 데 기여할 수 있습니다. 또한, 데이터 접근에 대한 공정 보상이 가능해질 수 있습니다. 예를 들어, 뉴욕타임스는 AI 훈련에 콘텐츠가 사용되지 않도록 차단하며, 이에 대한 보상을 요구하고 있습니다 (Now you can block OpenAI’s web crawler).

    창과 방패의 우화: 데이터 수집의 미래

    이 모든 상황은 마치 창과 방패의 싸움과 같은 우화로 표현될 수 있습니다. 한때는 데이터 수집자들이 쉽게 데이터를 모을 수 있었지만, AI와 플랫폼의 차단 기술이 발전하면서 그들은 더 정교한 방법을 찾아야 했습니다. 이는 마치 고양이와 쥐의 게임처럼, 쥐(데이터 수집자)가 치즈(데이터)를 얻으려 하면 고양이(AI)가 이를 막는 모습과 비슷합니다.

    결국, 쥐는 더 인간처럼 행동하거나, 직접 치즈를 하나씩 줍는 방법으로 대응해야 합니다. 이는 데이터 수집의 효율성을 떨어뜨리지만, 새로운 균형점을 찾는 과정에서 데이터 프라이버시와 지적 재산권 보호가 강화될 수 있습니다. Blocking of AI Crawlers on Major Websites: Implications and Trends에서는 이러한 균형이 투명성과 협력을 촉진할 필요가 있다고 강조합니다.

    표: 주요 웹사이트의 AI 크롤러 차단 현황 (2023-2025)

    아래 표는 최근 연구에 기반한 주요 웹사이트의 AI 크롤러 차단 비율을 요약한 것입니다:

    | 크롤러 이름 | 차단 비율 (2023) | 차단 비율 (2025, 예상) | 비고 |

    |-------------------|------------------|-----------------------|--------------------------|

    | GPTBot (OpenAI) | 5% | 40% | 프라이버시 우려 증가 |

    | CCBot (Common Crawl) | 10% | 25% | 오픈 데이터 접근 제한 |

    | Google-Extended | 5% | 15% | AI 훈련 데이터 차단 |

    | ClaudeBot (Anthropic) | 1% | 10% | 신규 크롤러, 차단 증가 예상 |

    출처: Top websites increasingly block AI Web Crawlers, How many news websites block AI crawlers?

    결론

    AI가 크롤링과 스크레이핑을 차단하면서 데이터 수집은 점점 더 인간처럼, 또는 사람이 직접 하는 형태로 전환될 가능성이 높습니다. 이는 비용과 효율성에 도전 과제를 안기지만, 동시에 데이터 프라이버시와 웹사이트 소유자의 권리를 강화할 수 있습니다. 미래에는 데이터 접근에 대한 새로운 규제와 협력 모델이 필요할 것으로 보이며, 이는 디지털 생태계의 균형을 찾는 중요한 단계가 될 것입니다.

    ---

    주요 인용

    - Top websites increasingly block AI Web Crawlers amid privacy concerns

    - Major websites block AI crawlers from scraping their content

    - How many news websites block AI crawlers?

    - Declare your AIndependence: block AI bots, scrapers and crawlers with a single click

    - Now you can block OpenAI’s web crawler

    - Should You Block AI Crawlers From Crawling Your Site?

    - Blocking of AI Crawlers on Major Websites: Implications and Trends

    - Many News Sites Are Blocking AI Web Crawlers, New Research Shows

    - Pros and Cons of AI Bot Crawling on Websites

    - Web crawlers ignore blocking efforts

    - Data Privacy And Ownership To Remain Key Concerns In Web Scraping Industry Next Year

    - Will AI hamper our ability to crawl the web for useful data?

    - AI Crawler Wars: How Web Scraping Is Closing the Open Internet

    - Best AI-Driven Website Crawlers: The Future Of ECommerce

    - Why publishers are questioning the effectiveness of blocking AI web crawlers

    1 답글 마지막 답글
    0
    답글
    • 토픽으로 답글
    로그인 후 답글 작성
    • 오래된 순
    • 최신 순
    • 가장 많은 투표


    1

    온라인

    8

    사용자

    6.8k

    토픽

    6.8k

    게시물
    손호성 0손
    손호성 0
    • AI를 활용한 만다라트 생성기 버전업
      A
      admin
      0
      1
      0

    • AI를 통해 시간을 얻는 연령대별 시간의 기술
      A
      admin
      0
      1
      0

    • 번역서 출판사가 AI를 활용하는 방법
      A
      admin
      0
      1
      2

    • miniERP 출판사가 AI를 마케팅에 활용하는 방법
      A
      admin
      0
      1
      0

    • 판매 데이터 기준 도서책장 프로그램 개발 및 도서 게임
      A
      admin
      0
      1
      1

    • 데이터 기반 책 순위 진열장 책등 버전
      A
      admin
      0
      1
      0

    • 도서 판매 데이터 기반 온라인 책장
      A
      admin
      0
      1
      1

    • [텀블벅] 오늘 기분은? - 알파벳 감정사전 A to Z
      A
      admin
      0
      1
      0
    Powered by Argo9 | a1bbs |brunch | bookfactory
    • A
      admin

      오늘 제주도 공항에서 내 책을 열심히 풀고있는 초등학생쯤 보이는 친구를 보게 되었는데 이거 아저씨가 만든거야 라고 말할뻔 했음...

      부모님과 동생쯤 보이는 아이가 함께 있는데 말걸었다가는 이상한 아저씨야 라고 하면... 참고 일행에게 봐달라고 속닥속닥~

      557642391_32269069736010567_171152966419912507_n.jpg

      오늘 강의한 내용에 들어있던 스도쿠

      저자라면 아마 알고 있을겁니다... 서점에서 책 집으려고 하는 사람이 있으면 갑자기 카드를 꺼내거나 말을걸고 싶은...마음 감사합니다. 미래의 독자님...

      더 보기

    • A
      admin

      얼마전에 수학교과서에 제가쓴 책의 사용료를 알리는 메일이 왔다고 글을 적었는데 그 글로 인해 강의를 할 계기가 생겼습니다. 3권의 책이 매년 수학교과서에 추가된 것을 몰랐었는데 어느덧 제주도에 와서 학부모 아카데미라는 곳에 서게 되었습니다.

      556143403_32249201194664088_2512156174874704848_n.jpg

      일정은 이렇게 되었는데 오늘도 강의를 하러갈 예정입니다.

      창의적 생활속 수학이란 제가 30년간 해왔던 일들에 수학이 필요했고 문제해결의 결과 과정 안에는 언제나 수학이 있었다는 사실을 이야기할 생각이었습니다. 물론 그렇게 준비도 했고 요즘 학부모님들이 사용하시는 AI에 대해서도 생각하면서 이야기를 풀어봤습니다.

      오늘 약간의 강의안을 수정하고 조금 다른 방향을 찾아볼 생각입니다. 오랜기간동안 매직아이, 스도쿠, 미로찾기 같은 퍼즐을 만들면서 과정 속의 알고리즘의 변화 같은게 눈에 보이지 않지만 어떻게 표시되는지는 보여드릴 수 있으니 개발 프로그램과 생각이 바뀌면 수학적사고도 변경된다는 것을 이야기할 생각입니다.

      555548133_32248458748071666_6276792301238015581_n.jpg?stp=cp6_dst-jpg_tt6&_nc_cat=108&ccb=1-7&_nc_sid=127cfc&_nc_ohc=DlaaCt6J44cQ7kNvwHB_UME&_nc_oc=AdmK38GRvM5It33BXadRiFgELorN6Tuv3yIuzf7Tl8_KbxmIrSeR9pVqv-ZZ-NriT1g&_nc_zt=23&_nc_ht=scontent-ssn1-1.xx&_nc_gid=VYM1uMGgjdRwaW-ugQWXYw&oh=00_AfbPH55ArCFKBXepzCJ6rl4rP0ErNroLf-L7RiHjVXl_bA&oe=68E18BEA

      https://ai.a1bbs.com/ 수학학습목표를 세우기 위한 만다라트도 정리했고 오늘은 어제보다 더 나은 수학여행이 되어야 할텐데 말이죠 ^^

      더 보기

    • A
      admin

      AI 시대에 게시판 활용도에 대해서 고민하는 일이 많았다가 NodeBB 기반이 4.0대부터 ActivityPub을 지원해서 늘 켜놓다가 최근에 기존 서버에서 돌리기에는 무리가 있어 앞으로 시대에 맞춰 서버들을 다 닫고 사이트도 여기저기 있던 것들도 다 한 곳으로 모으는 중입니다.

      스크린샷 2025-09-24 오후 5.09.13.png

      검색엔진이나 AI로 SEO를 한다는 분들이 이미 자체 서비스에 ActivityPub을 도입했다는 이야기는 잘 못 들었는데 Ghost 6.0 그리고 워드프레스는 플러그인으로 이미 해당 기능을 추가할 수 있게 되었고 확장된 기능을 제공하기도 하는데 실제 한국에서 얼마나 사용하는지는 미지수였습니다.

      직접 운영하는 스레드에 ActivityPub 기능이 있기는 하지만 실제 사용량을 측정하기에는 자료가 공개되지도 않고 실제 사용하기도 쉽지 않습니다.

      스크린샷 2025-09-25 오전 7.35.37.png

      그래서 다시 메모리도 증설하고 공간도 늘려 NodeBB 4.5.1로 업그레이드하고 서버를 오늘 켜놨습니다. 페이지뷰나 봇 페이지 뷰를 능가할 정도로 네트워크가 커졌습니다. 그만큼 퍼져나가는 영향력이 있다는 의미이고 이미 제가 운영하고 있는 도메인에도 검색량 증가가 눈에 뜨일 정도로 늘어났습니다.

      결론은 아직 지켜봐야겠지만 늘어나고 있고 앞으로 대안으로 홍보할 수 있는 채널이 늘어났다는 것을 의미합니다. 현재 마크다운기반의 AI 인용을 타깃 한 글들이 더 많이 노출될 수 있게 더 많은 리서치 자료를 올리면 더 많은 곳에 퍼트릴 수 있는 원소스가 될 수 있으리라 생각됩니다.

      다양함만이 살아남을 수 있는 세상이라서 기대 중입니다. 이제 ActivityPub 기반의 다른 서비스도 설치해 볼까 하고 있긴 한데 서버에 트래픽이 걱정됩니다. ^^

      https://bombomschool.com

      더 보기

    • A
      admin

      네이버 꿈꾸는 책공장이라는 공간에 커뮤니티를 운영한 지 19년째 내가 만든 카페는 아니지만 2대째 카페지기가 되어 어느덧 19년이 되었습니다.

      스크린샷 2025-09-19 오후 8.13.16.png

      최근 강의에서 "서바이벌 출판시장에서 외서로 살아남기"라는 주제로 발표할 기회가 있었습니다. 지난 20여 년간 약 450권을 출간하며 걸어온 길을 되돌아보니, 우리 출판사를 이끌어온 두 개의 핵심 축이 보였습니다. 바로 수학 퍼즐과 외서 번역이었습니다.

      그동안 운이 좋았던 때도 있고, 시기를 잘 맞춘 경우도 있었습니다. 반대로 실패해서 너무 성급하게 정리한 책들도 있었죠. 20년이 넘는 기간 동안 흥망성쇠를 겪으며 간혹 출판 활동을 멈춘 시기도 있었습니다.

      출판업에 대한 초기 철학

      창업 초기에 품었던 생각이 있었습니다. 출판업은 "삼성이나 네이버 같은 대기업이 쉽게 진입하지 않을 시장이면서, 쉽게 망하지는 않지만 잘하면 꾸준히 성장할 수 있는 유일한 산업군"이라고 여겼습니다.

      하지만 최근 큰 변화의 물결 앞에서 고민이 깊어졌고, 한동안 멍한 상태였던 것도 사실입니다. 그럼에도 변화에 적극 대응하기로 마음먹었고, 외서가 지속경영을 위한 중요한 단초가 될 것이라는 확신을 갖게 되었습니다.

      앞으로의 전략

      앞으로 판권을 구매할 책들은 '문구에 가까운' 성격을 띨 것으로 예상됩니다. 기술적인 세부사항이나 라이선스 이야기는 차치하고, 이번 강의는 지난 시간을 되돌아보는 성찰의 시간이었습니다.

      진짜 살아남기는 이제부터

      10월, 본격적인 생존 전략을 실행에 옮길 때입니다.

      549159548_32090031980581011_3358507445637206476_n.jpg?_nc_cat=103&ccb=1-7&_nc_sid=127cfc&_nc_ohc=ByI5WnIwwvQQ7kNvwED8_iO&_nc_oc=Admh8k_vE4RNLGTWS3VdTm7pTnen5ovc31Pmw_HXz8-LYlh57sqNSFg6oPN4GjHxzW8&_nc_zt=23&_nc_ht=scontent-ssn1-1.xx&_nc_gid=CE6V2UvI8LnYB7xD9EABKw&oh=00_Afa2O521yVLzl57MDqxZD6eWY0EM5C9XvRgv-igMEK0txw&oe=68D31A86

      실뜨기 미로 찾기 책을 준비 중입니다.

      9월에 미친 듯 책을 내고 10월에 기획하고 제작하고 버티는 시간...

      https://www.argo9.com/

      더 보기
    • 로그인

    • 계정이 없으신가요? 등록

    • 검색하려면 로그인하거나 등록하세요.
    • 첫 게시물
      마지막 게시물
    0
    • 카테고리
    • 최근
    • 태그
    • 인기
    • World
    • 사용자
    • 그룹