2016.06.16

ITWorld 용어풀이 | 캡차(Captcha)

허은애 기자 | ITWorld
보안이 필요한 웹 사이트 등에 로그인할 때, 비밀번호 외에 별도의 문자나 숫자 조합을 입력하는 란이 종종 보입니다. 인기 블로그에 익명으로 답글을 달 때도, 새로운 쇼핑몰에 회원 가입을 할 때도 흔히 마주치는 과정입니다.

구부러지고 왜곡된 단어나 문자를 보여주는 이 프로그램은 인간은 판독할 수 있지만, 컴퓨터 프로그램이나 봇이 읽을 수 없는 텍스트를 생성하는 캡차(Captcha)입니다. 우리나라에서는 보통 보안 문자로 불립니다. 캡차는 현재 전 세계적으로 360만 개 이상의 웹 사이트에서 사용되고 있으며, 각종 로그인 과정에서 하루에도 3억 번 이상의 해독이 이루어지고 있습니다.


캡차(Completely Automated Public Turing Test To Tell Computers and Humans Apart)는 2000년 미국 카네기 멜론 대학 컴퓨터 공학 교수 루이스 폰 안이 처음 사용한 단어로 ‘컴퓨터와 인간을 구분하는 완전 자동화 퍼블릭 튜링 테스트’의 약자 조합을 의미합니다. 캡차는 로그인 과정에서 타인의 이메일이나 웹 사이트 계정을 해킹하거나 대량 스팸 가입을 목적으로 하는 자동화 소프트웨어의 접근을 차단할 수 있습니다. 가입이나 로그인을 원하는 방문자가 스팸 목적을 가진 자동화 프로그램이 아닌 인간 사용자라는 증명이 되는 것이죠.

컴퓨터가 인간 언어를 이해하기란 매우 어려우며, 챗봇 기술이 상당히 발전한 지금도 컴퓨터와 인간이 완전히 자유롭게 대화하는 수준에 이르지는 못했습니다. 인간 언어의 비정형성 때문입니다. 캡차는 뒤틀리고 왜곡된 문자를 판독할 수 있는 인간의 인지 능력에 착안했습니다.

맨 처음 시작은 광학 문자 판독 기술(Optical Character Recognition, OCR)과 연관이 있습니다. OCR은 인쇄되거나 손으로 쓰여진 문자 텍스트를 컴퓨터가 판독할 수 있도록 디지털로 변환하는 기술입니다. 캡차는 보통 무작위로 생성된 단어나 숫자를 왜곡하고 뒤틀어 비정형으로 만들어 제시하는데, 대부분의 경우 인간 사용자는 약간의 주의를 기울이면 내용을 판독할 수 있지만 컴퓨터는 할 수 없습니다.

현재 가장 널리 쓰이는 캡차 방식은 리캡차(reCAPTCAH)입니다. 리캡차는 종이에 기록된 인간의 저작물을 디지털화해서 보관하자는 이타적인 목적의 크라우드 소싱에서 출발했습니다. 종이책 디지털화 과정에서 컴퓨터가 판독하지 못한 문자를 사용자들이 로그인 과정에서 입력하고, 이 결과가 다시 스캔 과정에 반영돼 범 인류적 문화 유산 구축에 공헌하게 됩니다. 리캡차에서 제시되는 왜곡되고 구불구불한 문자들은 실제 종이책에서 스캔된 것입니다.

리캡차 기술은 많은 언론사가 과거 출판물을 디지털 파일로 변환하는 과정에서 유용하게 사용되기도 했습니다. 2009년 구글은 캡차 서비스를 인수해 방대한 데이터 분류에 사용했고, 최근에는 도로에 설치된 표지판과 거리명 이미지를 리캡차에 선보이고 있습니다. 구글 스트리트 뷰 카메라에 찍힌 표지판 등이 사용자 로그인 과정에서 판독돼 구글 지도 프로젝트의 정확성을 높이는 데 사용되는 것이죠.

Credit: google.com

한편, OCR 기술의 발전에 따라 2010년 캡차 단계를 통과한 신생 업체가 나타나고, 지메일, 핫메일, 야후 메일 등의 스팸 비율이 급속하게 높아지기도 했습니다. 문자 기반 캡차를 무력화하는 프로그램이 등장한 것입니다. 구글 역시 캡차 사용을 중단하고 ‘로봇이 아닙니다’라는 체크 박스를 확인하는 방식의 리캡차를 도입하면서 API를 공개했습니다. 구글 관계자는 “인공지능 기술이 발전해 왜곡된 문자 인식률이 99.8%로 크게 향상됐다”고 밝혔습니다.

Credit : University of Alabama at Birmingham

사용자 가운데에서는 갈수록 캡차를 통한 본인 증명 과정이 까다로워지고 있다는 비난도 만만치 않습니다. 점점 인식하기 까다로운 이미지가 등장하기도 하고, 시각 장애를 앓고 있는 사용자를 소외시킨다는 지적도 있습니다. 노령자, 비영어권 사용자나 영어 청취가 불가능한 사용자들에게도 진입 장벽이 될 수 있습니다.

이 때문에 문자 외에 음성 캡차, 이미지 캡차, 수학 연산 캡차, 3D 캡차, 드래그앤드롭 캡차 등 다양한 방식도 생겨났습니다. 캡차는 인간과 컴퓨터를 쉽게 구분해 웹 보안의 한 축을 담당하지만, 인공지능과의 경쟁 외에도 더욱 긍정적인 사용자 경험을 제공해야 한다는 과제를 안고 있는 셈입니다. editor@itworld.co.kr  


2016.06.16

ITWorld 용어풀이 | 캡차(Captcha)

허은애 기자 | ITWorld
보안이 필요한 웹 사이트 등에 로그인할 때, 비밀번호 외에 별도의 문자나 숫자 조합을 입력하는 란이 종종 보입니다. 인기 블로그에 익명으로 답글을 달 때도, 새로운 쇼핑몰에 회원 가입을 할 때도 흔히 마주치는 과정입니다.

구부러지고 왜곡된 단어나 문자를 보여주는 이 프로그램은 인간은 판독할 수 있지만, 컴퓨터 프로그램이나 봇이 읽을 수 없는 텍스트를 생성하는 캡차(Captcha)입니다. 우리나라에서는 보통 보안 문자로 불립니다. 캡차는 현재 전 세계적으로 360만 개 이상의 웹 사이트에서 사용되고 있으며, 각종 로그인 과정에서 하루에도 3억 번 이상의 해독이 이루어지고 있습니다.


캡차(Completely Automated Public Turing Test To Tell Computers and Humans Apart)는 2000년 미국 카네기 멜론 대학 컴퓨터 공학 교수 루이스 폰 안이 처음 사용한 단어로 ‘컴퓨터와 인간을 구분하는 완전 자동화 퍼블릭 튜링 테스트’의 약자 조합을 의미합니다. 캡차는 로그인 과정에서 타인의 이메일이나 웹 사이트 계정을 해킹하거나 대량 스팸 가입을 목적으로 하는 자동화 소프트웨어의 접근을 차단할 수 있습니다. 가입이나 로그인을 원하는 방문자가 스팸 목적을 가진 자동화 프로그램이 아닌 인간 사용자라는 증명이 되는 것이죠.

컴퓨터가 인간 언어를 이해하기란 매우 어려우며, 챗봇 기술이 상당히 발전한 지금도 컴퓨터와 인간이 완전히 자유롭게 대화하는 수준에 이르지는 못했습니다. 인간 언어의 비정형성 때문입니다. 캡차는 뒤틀리고 왜곡된 문자를 판독할 수 있는 인간의 인지 능력에 착안했습니다.

맨 처음 시작은 광학 문자 판독 기술(Optical Character Recognition, OCR)과 연관이 있습니다. OCR은 인쇄되거나 손으로 쓰여진 문자 텍스트를 컴퓨터가 판독할 수 있도록 디지털로 변환하는 기술입니다. 캡차는 보통 무작위로 생성된 단어나 숫자를 왜곡하고 뒤틀어 비정형으로 만들어 제시하는데, 대부분의 경우 인간 사용자는 약간의 주의를 기울이면 내용을 판독할 수 있지만 컴퓨터는 할 수 없습니다.

현재 가장 널리 쓰이는 캡차 방식은 리캡차(reCAPTCAH)입니다. 리캡차는 종이에 기록된 인간의 저작물을 디지털화해서 보관하자는 이타적인 목적의 크라우드 소싱에서 출발했습니다. 종이책 디지털화 과정에서 컴퓨터가 판독하지 못한 문자를 사용자들이 로그인 과정에서 입력하고, 이 결과가 다시 스캔 과정에 반영돼 범 인류적 문화 유산 구축에 공헌하게 됩니다. 리캡차에서 제시되는 왜곡되고 구불구불한 문자들은 실제 종이책에서 스캔된 것입니다.

리캡차 기술은 많은 언론사가 과거 출판물을 디지털 파일로 변환하는 과정에서 유용하게 사용되기도 했습니다. 2009년 구글은 캡차 서비스를 인수해 방대한 데이터 분류에 사용했고, 최근에는 도로에 설치된 표지판과 거리명 이미지를 리캡차에 선보이고 있습니다. 구글 스트리트 뷰 카메라에 찍힌 표지판 등이 사용자 로그인 과정에서 판독돼 구글 지도 프로젝트의 정확성을 높이는 데 사용되는 것이죠.

Credit: google.com

한편, OCR 기술의 발전에 따라 2010년 캡차 단계를 통과한 신생 업체가 나타나고, 지메일, 핫메일, 야후 메일 등의 스팸 비율이 급속하게 높아지기도 했습니다. 문자 기반 캡차를 무력화하는 프로그램이 등장한 것입니다. 구글 역시 캡차 사용을 중단하고 ‘로봇이 아닙니다’라는 체크 박스를 확인하는 방식의 리캡차를 도입하면서 API를 공개했습니다. 구글 관계자는 “인공지능 기술이 발전해 왜곡된 문자 인식률이 99.8%로 크게 향상됐다”고 밝혔습니다.

Credit : University of Alabama at Birmingham

사용자 가운데에서는 갈수록 캡차를 통한 본인 증명 과정이 까다로워지고 있다는 비난도 만만치 않습니다. 점점 인식하기 까다로운 이미지가 등장하기도 하고, 시각 장애를 앓고 있는 사용자를 소외시킨다는 지적도 있습니다. 노령자, 비영어권 사용자나 영어 청취가 불가능한 사용자들에게도 진입 장벽이 될 수 있습니다.

이 때문에 문자 외에 음성 캡차, 이미지 캡차, 수학 연산 캡차, 3D 캡차, 드래그앤드롭 캡차 등 다양한 방식도 생겨났습니다. 캡차는 인간과 컴퓨터를 쉽게 구분해 웹 보안의 한 축을 담당하지만, 인공지능과의 경쟁 외에도 더욱 긍정적인 사용자 경험을 제공해야 한다는 과제를 안고 있는 셈입니다. editor@itworld.co.kr  


X