본문 바로가기

파이썬/데이터분석

한글 인코딩 종류 및 문제점 (UTF-8 vs. EUC-KR)

반응형

한글 인코딩 방식은 크게 두가지로 나뉩니다. UTF-8 과 EUC-KR 방식입니다. 원래 윈도우는 CP949방식을 사용했는데, 윈도우를 개발한 마이크로 소프트에서 EUC-KR 방식에서 확장하였기 때문에 MS949라고도 부릅니다. 참고로 현재는 윈도우가 유니코드도 지원하며, 요즘 개발되는 윈도우는 유니코드를 베이스로 베이스로 하고 있다고 합니다.

 

하지만 여전히 윈도우는 아직도 약간의 문제점을 안고 있는 것은 사실입니다.

 

1. UTF-8

 

현재 웬만한 개발자들이 원하는 방식입니다. 이유는 아주 간단합니다. 웬만한 서버 운영체제와 웹 서버 그리고 코딩자체가 UTF-8로 제작하면 별다른 인코딩을 따로 할 필요가 없기 때문입니다. UTF-8 방식은 대표적인 조합형의 유니코드 인코딩 방식입니다. 

 

2. EUC-KR, CP949 (MS949)

 

완성형 한글인 EUC-KR과 CP949에 대해서 알아보자면 글자하나가 완성된 형태여야 하는 방식입니다. 즉, 완성형 문자로 EUC-KR의 경우에는 웹에서 CP949(엄밀하게는 다르지만 거의 비슷하므로 MS949와 동일하게 취급)의 경우에는 윈도우에서 가장 많이 사용을 합니다.

 

 

정리 :

 

현재는 웹에서 UTF-8를 기본으로 사용하고 있어서 웬만한 한글 사이트를 만드는 경우에는 인코딩을 EUC-KR로 설정해야 한다고 합니다. 이유는 아주 간단한데, 윈도우를 사용하는 사람들이 많기 때문에 정상적으로 사용하기 위해서는 UTF-8보다는 EUC-KR로 인코딩하는 것이 더 적합합니다.

반응형