HTML 占쏙옙 : 인터넷 한글 깨짐 현상에 대해 알아보기
페이지 정보
본문
인터넷을 서핑하다 보면 많은 한글 깨짐을 볼 수 있습니다.
1. 占쏙옙
일반적으로는 EUC-KR 에서 Unicode 로 저장 도중 깨지거나, UTF-8 로 저장 도중 깨지면 �� 라는 단어로 대체가 됩니다.
이 대체된 단어는 문자해석에서 오류가 난 글자로 판단하여 U+FFFD4 로 대체가 됩니다.
이것을 서버에서 또 UTF-8 로 보면 EF BF BD / EF BF BD 로 처리가 되는데 이걸 한국에서 본다면 EUC-KR 로 다시 바뀌어서 "EFBF" "BDEF" "BFBD"로 해석이 되고 이것이 각각 "占" "쏙" "옙" 으로 출력이 되는 것입니다.
서버에서 UTF-8 로 인코딩을 했는데 클라이언트가 EUC-KR 로 디코딩하면 나타납니다.
2. 홰聆究셀
EUC-KR 에서 첫 바이트를 떼어냈을 때 나타나는 현상이다.
이 현상은 대부분 문자여이나 각 줄의 맨앞에 오는 단어들이 잘려서 나오는 경우일 때 발생합니다.
(참고로 위 단어는 "안녕하세요" 라는 단어가 변형 된 것입니다.)
3. 컴컴컴컴컴컴넴
일부러 저렇게 쓴듯 하지만 실제로 깨진 글자입니다.
CP4375 의 기호중 일부가 깨져서 나온 현상입니다.
4. 덈뀗섏꽭 쩗꿇뀘
UTF-8 을 CP9496 로 인식하여 나타낸 깨진 글자입니다.
UTF-8 에서는 0x81 ~ 0x9f 영역을 자주 쓰는데, 이 부분이 CP949 에서 EUC-KR 에 추가로 배치한 자주 안쓰이는 한글 영역과 겹쳐서 해당 부분이 출력되었기 때문이다.
5. ~ 혹은 ????????? 등등...
EUC-KR 이나 UTF-8을 ISO-88597(대표적으로 ISO-8859-1, 서유럽권)로 인식해서 나타나는 현상입니다.
6. )C>H3gGO
이것도 고정적인 내용은 아니고 그냥 형태입니다.
주로 대문자, 소문자, 기호 몇가지가 나오고 중간 중간 음표도 곁들여 주며 나오는 이 모양은 8비트를 모두 지원하지 않는 환경에서 EUC-KR에서의 상위 비트가 모두 날아간 놈입니다.
최근에는 볼 일이 거의 없지만, 예전에는 한국IBM같이 도미노 솔루션을 쓰던 곳에서 보낸 메일이 이런식으로 안 보이게 보여서 난감한 경우가 있었죠.
그리고, ISO-2022-KR로 인코드하고 나서 제어문자 필터링에 걸려서 제어문자가 유실되는 경우도 이렇게 됩니다.
7. 켓아~
요놈은 대부분의 글자가 보이지만 일부가 고정적으로 다른 글자로 대체되는 형태입니다.
대표적으로 “횽아” -> “켓아”와 “아햏햏” -> “아쥑쥑” 이 있죠.
둘다 구글에서 검색해 보면 용례가 그렇게 많지는 않지만, 의외로 유닉스 프로그램들에서는 상당히 자주 겪는 패턴입니다.
이 경우는 인코딩이 euc-kr이라고 가정하고, 두 번째 바이트 글자의 하위 7비트만 보고 디코딩해서 생기는 문제입니다.
cp949의 경우에는 두 번째 바이트에 MSB가 없는 경우가 있기 때문에, 구분해 줘야 글자를 제대로 판단할 수 있겠죠.
관련자료
http://highthroughput.org/wp/cb-1167/
https://uncyclopedia.kr/wiki/점쏙옙
1. 占쏙옙
일반적으로는 EUC-KR 에서 Unicode 로 저장 도중 깨지거나, UTF-8 로 저장 도중 깨지면 �� 라는 단어로 대체가 됩니다.
이 대체된 단어는 문자해석에서 오류가 난 글자로 판단하여 U+FFFD4 로 대체가 됩니다.
이것을 서버에서 또 UTF-8 로 보면 EF BF BD / EF BF BD 로 처리가 되는데 이걸 한국에서 본다면 EUC-KR 로 다시 바뀌어서 "EFBF" "BDEF" "BFBD"로 해석이 되고 이것이 각각 "占" "쏙" "옙" 으로 출력이 되는 것입니다.
서버에서 UTF-8 로 인코딩을 했는데 클라이언트가 EUC-KR 로 디코딩하면 나타납니다.
UTF-8 | � | � | ||||
---|---|---|---|---|---|---|
바이트 | EF | BF | BD | EF | BF | BD |
EUC-KR | 占 | 쏙 | 옙 |
2. 홰聆究셀
EUC-KR 에서 첫 바이트를 떼어냈을 때 나타나는 현상이다.
이 현상은 대부분 문자여이나 각 줄의 맨앞에 오는 단어들이 잘려서 나오는 경우일 때 발생합니다.
(참고로 위 단어는 "안녕하세요" 라는 단어가 변형 된 것입니다.)
3. 컴컴컴컴컴컴넴
일부러 저렇게 쓴듯 하지만 실제로 깨진 글자입니다.
CP4375 의 기호중 일부가 깨져서 나온 현상입니다.
4. 덈뀗섏꽭 쩗꿇뀘
UTF-8 을 CP9496 로 인식하여 나타낸 깨진 글자입니다.
UTF-8 에서는 0x81 ~ 0x9f 영역을 자주 쓰는데, 이 부분이 CP949 에서 EUC-KR 에 추가로 배치한 자주 안쓰이는 한글 영역과 겹쳐서 해당 부분이 출력되었기 때문이다.
5. ~ 혹은 ????????? 등등...
EUC-KR 이나 UTF-8을 ISO-88597(대표적으로 ISO-8859-1, 서유럽권)로 인식해서 나타나는 현상입니다.
6. )C>H3gGO
이것도 고정적인 내용은 아니고 그냥 형태입니다.
주로 대문자, 소문자, 기호 몇가지가 나오고 중간 중간 음표도 곁들여 주며 나오는 이 모양은 8비트를 모두 지원하지 않는 환경에서 EUC-KR에서의 상위 비트가 모두 날아간 놈입니다.
최근에는 볼 일이 거의 없지만, 예전에는 한국IBM같이 도미노 솔루션을 쓰던 곳에서 보낸 메일이 이런식으로 안 보이게 보여서 난감한 경우가 있었죠.
그리고, ISO-2022-KR로 인코드하고 나서 제어문자 필터링에 걸려서 제어문자가 유실되는 경우도 이렇게 됩니다.
7. 켓아~
요놈은 대부분의 글자가 보이지만 일부가 고정적으로 다른 글자로 대체되는 형태입니다.
대표적으로 “횽아” -> “켓아”와 “아햏햏” -> “아쥑쥑” 이 있죠.
둘다 구글에서 검색해 보면 용례가 그렇게 많지는 않지만, 의외로 유닉스 프로그램들에서는 상당히 자주 겪는 패턴입니다.
이 경우는 인코딩이 euc-kr이라고 가정하고, 두 번째 바이트 글자의 하위 7비트만 보고 디코딩해서 생기는 문제입니다.
cp949의 경우에는 두 번째 바이트에 MSB가 없는 경우가 있기 때문에, 구분해 줘야 글자를 제대로 판단할 수 있겠죠.
관련자료
http://highthroughput.org/wp/cb-1167/
https://uncyclopedia.kr/wiki/점쏙옙
댓글목록
등록된 댓글이 없습니다.