컴퓨터 문자열 인코딩의 종류 및 자세한 설명

컴퓨터 문자열 인코딩은 컴퓨터가 인간의 언어를 규칙에 따라 2진수로 변환하는 방식입니다. 주요한 문자열 인코딩 방식들에 대해서 알아보는 시간을 가져 보겠습니다.

문자열 인코딩의 설명

문자열 인코딩은 2진법을 사용하는 컴퓨터가 인간의 언어를 일정한 규칙에 따라 2진수로 변환하는 방식식입니다. 컴퓨터는 "만나서 반가워요" 라는 인간의 언어를 그대로 읽거나 처리할 수 없기 때문입니다. 그래서 컴퓨터는 사람들이 만든 2진수와 문자를 일대일로 대응하는 규칙을 통해 2진수로 문자를 처리합니다.

주요 문자열 인코딩 종류

컴퓨터에서 가장 많이 사용되는 문자열 인코딩 종류는 다음과 같습니다.

ASCII(American Standard Code for Information Interchange)

영어 알파벳, 숫자, 기호 등 128개의 문자를 나타내는 7비트 인코딩 방식입니다. 가장 오래되고 간단한 인코딩 방식이지만, 한글과 같은 비영어 문자를 표현할 수 없습니다. 아스키는 7비트 인코딩으로 총 128개의 문자로 이루어져 있으며, 제어 문자와 출력 가능한 문자로 구성됩니다. 출력 가능한 문자에는 52개의 영문 알파벳 대소문자, 10개의 숫자, 32개의 특수 문자, 그리고 하나의 공백 문자가 포함됩니다. 아스키는 다양한 확장 인코딩들과 함께 사용되며, 이들은 언어별로 같은 숫자에 서로 다른 문자를 배당하는 경우가 많습니다. 예를 들어, ISO/IEC 646과 IBM 코드 페이지는 아스키를 기반으로 확장된 인코딩입니다. 이러한 인코딩들은 다양한 언어와 특수 문자를 지원하기 위해 만들어졌습니다.

EUC-KR(Extended Unix Code - Korean)

한글과 영어를 포함한 2바이트 인코딩 방식 입니다. 한국에서 널리 사용되었던 인코딩 방식이지만, 유니코드의 보편성 확산으로 사용량이 감소하고 있습니다.

EUC-KR은 KS X 1001과 KS X 1003을 사용하는 8비트 문자 인코딩입니다. 이 인코딩은 한글 완성형으로 불리며, 한글 데이터를 저장할 때 주로 사용됩니다. EUC-KR 인코딩은 다음과 같이 구성됩니다.

128보다 작은 바이트에 KS X 1003을 배당합니다.
128보다 크거나 같은 바이트에 KS X 1001을 배당합니다. 각 글자는 행과 열에 128을 더한 코드값을 사용하여 2바이트로 표현됩니다.

EUC-KR은 한국어, 중국어, 일본어 문자 전산화에 주로 사용되며, 대한민국의 인터넷 환경에서 광범위하게 쓰입니다

UTF-8(Unicode Transformation Format - 8 bit)

UTF-8은 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나입니다. 이 인코딩은 켄 톰프슨과 롭 파이크가 만들었습니다Universal Coded Character Set + Transformation Format – 8-bit의 약자로, 본래는 FSS-UTF (File System Safe UCS/Unicode Transformation Format)**라는 이름으로 제안되었습니다.

유니코드 문자 집합을 8비트, 16비트, 32비트 단위로 표현하는 인코딩 방식 입니다. 현재 가장 많이 사용되는 인코딩 방식으로 거의 모든 언어의 문자를 표현할 수 있습니다.