Facebook Twitter Google Maps RSS
Home その他 文字コードにまつわる基本的なお話
formats

文字コードにまつわる基本的なお話

こんにちは。月曜担当・ほんだです。

先日動画を保存しようとしたら、自分のドキュメント内にドアラの動画が保存されているのを発見しました。

ドアラの何とも言えない意味不明感が好きなんです。いつ見ても安定の面白さ。

もし落ち込んだ時は、その動画を見て元気になろうと思います。

今も「わたくしドアラです」という曲が頭の中でエンドレスリピートされています。

 

さて、本日のブログでは、文字コードについて書いていきたいと思います。

本当はあまり得意なところではないんですが…これも勉強です。

開発をしていると逃れられないのです…!

パソコンにあまり触らない方でも、

いきなり文字化けを起こして未知の言語との遭遇をなさった方がいらっしゃるかと思いますので、

何かのご参考にして頂ければと思う所存であります。

 

毎度おなじみ、W3Techsさんのデータによりますと

Character Encodings

Most popular character encodings

© W3Techs.com usage change since
1 January 2013
1. UTF-8 75.5% +0.8%
2. ISO-8859-1 13.0% -0.5%
3. Windows-1251 2.9% +0.1%
4. GB2312 2.4% -0.1%
5. Shift JIS 1.3% -0.1%

っというわけで、UTF-8がよく使われてますよーということが分かるわけです。

前述のとおり、文字コードマスターに程遠い私は、今回このUTF-8に絞って色々と書いていきます。

 

文字コードと申しましても、上の表では「character encoding」と表記されていますね。

実はUTF-8とは、文字符号化方式(character encoding)の一つであり、

文字をバイト表現にする間を取り持っているものなのです。

「文字コード」という語が何を指すのか、意見が分かれるところですので、

UTF-8=文字コードというわけではないと、ご認識頂きたいところです。

 

UTF-8はUnicodeという文字集合を利用しています。英字も漢字も記号も、この文字集合のどこかにあります。

表したい文字が、この文字集合のどこにあるのかを表現したものが符号化方式というわけです。

意訳すると「UTF-8的には、Unicodeのココに文字があるヨ!だから変換してネ☆」とでも言っているんでしょうか。

そこで、別の方式で読み込みを行うと

「拙者には、この表現ではココにあたるでござる!だから何と言おうと、これを出力するでござる!」と言って

強制的に別のわけのわからない文字を出力してしまう、ということが起こります。これが文字化けです。

 

まだまだお話しなければならないところがあるのですが、

今回はこの辺りで失礼します。ではまた来週!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です


*