퍼스널 컴퓨팅

[ITWorld 넘버스] 인터넷 링크도 ‘썩는다’

박상훈 | ITWorld 2024.06.14
부패하는 것은 우유만이 아니다. 인터넷의 하이퍼링크 역시 시간이 지남에 따라 서서히 상한다. 처음에는 사용자의 의도대로 문맥에 맞게 필요한 정보를 전달하지만, 어느 순간 링크한 페이지 내용이 크게 바뀌거나 삭제된다. 페이지 주소가 변경돼 링크가 끊어지기도 한다. 링크가 제 의미를 잃어버리는, 이른바 '디지털 붕괴(digital decay)'다. 페이지의 내용이 완전히 바뀌는 것은 '콘텐츠 드리프트(Contents Drift)'라고 하고, '404 Not Found' 오류처럼 링크가 단절되는 것이 '링크 부패(link rot)', 즉 깨진 링크다. 콘텐츠 드리프트든 깨진 링크든 링크가 의도와 다르게 작동하면 사용자는 길을 잃고 콘텐츠 전체를 의심하게 된다.
 
ⓒ ITWorld

링크는 인터넷이 세상에 등장한 첫날부터 중요했다. 1989년 팀 버너스리는 웹의 3요소로 URL, HTTP, HTML을 제시했는데, 이 중 HTML이 바로 링크를 구현한 기술이다. HTML이 문자열과 URL을 연결해 준 덕분에 우리는 긴 주소를 기억하지 않아도 클릭 한 번으로 원하는 페이지로 이동할 수 있다. 오늘날 링크는 콘텐츠 투명성의 상징이기도 하다. 콘텐츠의 근거가 되고 논쟁과 사례로 더 입체적인 관점을 제시한다. 반면 근본적인 위험도 동시에 갖고 있다. 링크는 특정 시점에 다른 사람이 작성한 특정 주소의 콘텐츠와 연결하는 것이므로, 콘텐츠 드리프트나 링크 부패에 취약하다. 매우 유용하지만 콘텐츠의 신뢰를 갉아먹는 양날의 검이다.
 

뉴욕타임스 온라인 기사 55만 건 조사해 보니…

그렇다면 실제로 인터넷에 있는 링크는 얼마나 부패했을까? 최근 퓨 리서치 센터가 내놓은 <온라인 콘텐츠가 사라질 때> 보고서에서 해답을 찾을 수 있다. 커몬 크롤 웹 리포지토리에서 2013~2023년 웹페이지 샘플을 수집해 해당 페이지가 지금도 살아있는지 확인했다. 이에 따르면, 웹페이지의 유통 기한은 흔히 생각하는 것보다 훨씬 짧다. 지난 10년 사이 존재했던 모든 웹페이지 4곳 중 1곳이 더는 볼 수 없는 깨진 링크다. 오래된 페이지일수록 상황이 더 심각해, 2013년에 있었던 페이지의 38%가 지금은 볼 수 없는 상태다. 2023년에 만들어진 페이지 중 사라진 비율이 8%인 것을 고려하면 거의 5배 차이가 난다.

퓨 리서치 센터는 깨진 링크를 정부 웹사이트 링크, 뉴스 사이트 링크, 위키피디아 링크,  트위터(X) 글 등으로 구분해 분석했다. 그 결과 정부 웹사이트 링크의 22%가 본래 URL이 아닌 다른 주소로 연결되거나 액세스할 수 없는 것으로 나타났다. 전체 정부 웹 페이지의 21%에 적어도 1개 이상 깨진 링크가 포함됐다. 뉴스 콘텐츠의 경우 깨진 링크가 적어도 하나 포함된 비율이 23%이고, 위키피디아는 참조 섹션에 깨진 링크가 포함된 웹페이지 비율이 53%다. 소셜 미디어 분석 결과도 재밌다. 올라온 글의 18%가 3개월 후엔 볼 수 없었는데, 특히 튀리키예어는 그 비율이 49%에 달했다. 한글은 11%로 세계 평균보다 낮았다.

인터넷 링크의 건강 상태를 조사한 또 다른 자료가 하버드 로스쿨 라이브러리 이노베이션 랩의 <인터넷 속 기록의 한계> 보고서다. 1996년 뉴욕 타임스 웹사이트가 만들어진 이후 2019년까지 올라온 모든 기사 55만 건 속 링크 228만 개를 전수 조사했다. 특히 전체 링크의 72%를 차지하는 개별 웹페이지로의 연결, 즉 딥 링크(Deep Link)를 집중 분석했다. 그 결과 전체 링크의 25%는 접속이 안 됐다. 오래된 기사일수록 깨진 링크가 많은 것은 퓨 리서치 센터 조사와 마찬가지다. 2018년 기사 속 링크 중 6%가 깨진 것으로 조사됐는데, 1998년 기사 속 깨진 링크는 72%에 달했다. 전체 기사의 53%에 깨진 링크가 적어도 1개 이상 있었다.

하버드 로스쿨 라이브러리 이노베이션 랩 자료에서 흥미로운 부분은 지금부터다. 연구팀은 뉴스 섹션에 따라 링크가 깨지는 비율이 다른지 조사했다. 기사 작성 시점이 천차만별인 것을 고려해 '상대적 부패율(Relative Rot Rate, RRR)'이라는 표준화된 지수를 만든 후 이를 섹션 별로 비교했다. 그 결과 RRR이 가장 낮은, 즉 깨진 링크 비율이 가장 적은 섹션은 '건강'이었다. 평균보다 17% 낮았다. 이어 스타일, 비즈니스, 블로그 순이었다. 반면 RRR이 가장 높은 섹션은 여행이었다. 평균보다 17% 더 높았다. 예술, 스포츠가 뒤를 이었다. 인터넷에서 여행, 예술, 스포츠 관련 기사를 검색하면 깨진 링크를 만날 가능성이 높다는 의미다.
 

링크가 깨지면 콘텐츠 가치도 망가진다

두 보고서를 보면 깨진 링크 문제가 단순한 관리 소홀이 아니라 온라인에서 인용, 참조하는 시스템의 근본적인 한계임을 알 수 있다. 이유는 여러 가지인데, RRR이 높은 최상위 도메인 정부(.gov)와 교육(.edu) 사례에 힌트가 있다. 먼저 설계의 변동성이다. 백악관 사이트의 최상위 주소는 whitehouse.gov인데, 새 행정부가 들어설 때마다 콘텐츠 내용은 물론 서비스 구조가 달라진다. 전임 정부 콘텐츠 상당 부분이 깨진 링크가 된다. 둘째, 투자의 문제다. 교육 기관은 콘텐츠를 둘러싼 이해 관계가 다양한 반면, 담당 인력에 대한 투자는 미미하다. 담당자의 높은 이직률을 고려하면 교육 기관 웹페이지의 깨진 링크 비율이 높은 것은 어쩌면 당연하다.

문제는 깨진 링크가 단순히 사용자의 불편함으로 끝나는 것이 아니라는 점이다. 링크가 깨지는 순간 기존 링크를 통해 풍부하게 해석되던 정보는 근거가 빈약한 단편적 데이터가 된다. 콘텐츠를 오해하거나 잘못된 해석이 더 확산할 가능성도 있다. 실제로 깨진 링크는 저널리즘뿐만 아니라 서면 기록에 의존하는 모든 영역에서 단절과 오해를 부른다. 미국 대법원 판결에 참조된 링크를 조사한 결과는 충격적이다. 거의 절반이 이미 웹에서 사라졌거나 링크된 당시와 다른 내용으로 바뀐 것으로 나타났다. 하급심에서 잘못된 링크를 참조할 경우 큰 사회적 혼란으로 이어질 수도 있다. 링크를 다루는 새로운 관행과 워크플로우, 기술이 필요한 이유다.
 

미디어 CMS에 깨진 링크 잡아 내는 시스템 추가해야

그렇다면 깨진 링크 문제를 어떻게 해결할 수 있을까? 하버드 로스쿨 라이브러리 이노베이션 랩에 따르면, 가장 현실적인 방법이 아카이브다. 참조한 페이지를 저장해 두고 원본 링크에 문제가 있을 때 저장된 페이지로 연결해 링크 부패를 막는다. 위키피디아가 이 방식을 활용한다. IABot(InternetArchiveBot)을 이용해 깨진 링크를 자동으로 찾아 아카이브 페이지로 대체하는데, 복구한 링크가 2018년에 이미 900만 개를 넘어섰다. 하버드 로스쿨 도서관이 개발한 Perma.cc 프로젝트도 있다. 원하는 웹 페이지 URL을 이 사이트에 추가하면 아카이브 링크가 만들어지는데, 이 링크는 원본 웹 페이지 내용이 바뀌거나 사라져도 유지된다.

매일 많게는 수백 건씩 기사를 양산하는 미디어 업계는 깨진 링크의 피해자이자 가해자다. 전문가들은 기사를 쓰는 시스템, 즉 CMS에 아카이브 등 링크 깨짐을 막는 적절한 툴을 통합해야 한다고 지적한다. 링크가 깨졌는지 모니터링하는 것도 중요하다. ITWorld 넘버스 서비스에는 링크가 유효한지 주기적으로 검증하는 기능이 있지만, 국내에서 이런 기능을 도입한 미디어는 거의 없다. 기사에 링크를 넣는 관행도 바뀌어야 한다. 링크가 필요한지, 필요하다면 아카이브 방식을 사용할지 '링크 부패' 관점에서 한 번 더 생각해야 한다. 가능하다면 개별 웹페이지 대신 최상위 도메인을 링크하는 것도 좋다. 최상위 도메인은 링크가 깨지는 비율이 크게 낮다.
 

세상의 모든 IT 리서치 자료, '넘버스' 

여기서 소개한 모든 자료는 넘버스(Numbers) 서비스에 등록돼 있다. 넘버스는 IT 전문 미디어 ITWorld가 제공하는 IT 리서치 자료 메타 검색 서비스다. IDC, 가트너, 포레스터 등 주요 시장조사 업체의 자료는 물론 국내외 정부와 IT 기업, 민간 연구소 등이 발표한 기술 관련 최신 자료를 총망라했다. 2024년 6월 현재 1,600여 건의 자료가 등록돼 있으며, 매달 50여 건이 새롭게 올라온다. 등록된 자료는 출처와 토픽, 키워드 등을 기준으로 검색할 수 있고, 관련 기사를 통해 해당 자료의 문맥을 이해할 수 있다. 자료의 원문 제목과 내용을 볼 수 있는 링크, 자료를 발행한 주체와 발행 일자도 함께 확인할 수 있다.

editor@itworld.co.kr
Sponsored
IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.