[B! encode] iwazerのブックマーク

Rubyの内部文字コードはUTF-8ではない...だと...？！｜TechRacho by BPS株式会社

こんにちは、hachi8833です。少し前に、babaさんから「Rubyの内部文字コードはUTF-8じゃないよ」とツッコミがありました。（追記: 上は会話の途中から切り取りましたのでご了承ください）いきなりの展開にくらくらきましたが、babaさんはさらにたたみかけます。こうしたことはとっくにご存じの方も多いと思いますが、「Rubyといえば2.0以来UTF-8完全対応なんじゃないの」と勝手に思い込んでた私は脳に掌底を食らったような思いです。ああ、でもこういうことがあるから面白い。 ⚓ プログラミング言語と内部文字コードの関係まず最初に押さえておきたい点です。プログラミング言語で文字コードに関連する部分は、「文字列」「正規表現」「入出力」「コード中の文字リテラル（""の中など）」「コード中の文字リテラル以外の要素（変数名など）」「ファイル名」などが中心になります。そして文字列に関連し

iwazer 2016/10/14

リンク

SYMBL (◕‿◕) Symbols, Emojis, Characters, Scripts, Alphabets, Hieroglyphs and the entire Unicode

Top Symbols ❤ ♫ ☎ • ° ♨ ✈ ✣ ☏ ■ ☀ ➑ ✂ ☑ ✉ ☼ ☆ ✄ ✔ ✆ — ☁ ★ ♕ ✘ № ‰ ♠ ✪ ✝ ╳ © … ♥ ✰ † ✎ ® ¶ ♦ ✧ ‡ ✍ ™ ❆ ♣ ✦ ◑ ♀ ℮ ❅ ♤ ♡ ♪ ♂ ·

iwazer 2013/06/11

リンク

文字化け解読ツール「もじばけらった」

ご利用に関する諸注意本サービスは smkn (From kiki verb) によって、”現状のまま” 提供されるものとします。本サービスについては、明示黙示を問わず、商用品として通常そなえるべき品質をそなえているとの保証も、特定の目的に適合するとの保証を含め、何の保証もなされません。事由のいかんを問わず、損害発生の原因いかんを問わず、且つ、責任の根拠が契約であるか厳格責任であるか (過失その他) 不法行為であるかを問わず、smkn (From kiki verb) も寄与者も、仮にそのような損害が発生する可能性を知らされていたとしても、本サービスの使用から発生した直接損害、間接損害、偶発的な損害、特別損害、懲罰的損害または結果損害のいずれに対しても (代替品またはサービスの提供; 使用機会、データまたは利益の損失の補償; または、業務の中断に対する補償を含め) 責任をいっさい負いません

iwazer 2012/02/27

リンク

Ruby 1.9で文字コードの自動判別を行う

たまにRubyの話題でも。 Ruby 1.9で文字コードの自動判別をさせようとおもったら、意外に良いライブラリが見つからなくて苦労しました。結局ICUをbindingした、charlock_holmesがちゃんと使えたので、メモです。 OSXで使う場合は、下記の様にしてICUライブラリをインストールします。Linuxでは適当なパッケージシステムを使ってインストールしてください。 curl -O http://download.icu-project.org/files/icu4c/4.8.1.1/icu4c-4_8_1_1-src.tgz tar xvzf icu4c-4_8_1_1-src.tgz cd icu/source ./runConfigureICU MacOSX --with-library-bits=64 --disable-samples --enable-static

iwazer 2012/01/08

リンク

2to3を使ってコードをPython 3に移植する - Dive Into Python 3 日本語版

iwazer 2010/12/28

python
book

リンク

perl - use utf8; #って何だ? : 404 Blog Not Found

2009年06月15日07:00 カテゴリLightweight Languages perl - use utf8; #って何だ? id:otsuneに建設予定フラグがたてられていたので。冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech Perl の utf8 関係が未だ全く理解できない。わからないことがわからないので整理 use utf8はいつフラグをたてるか use utf8 しててもフラグたたないことがある…… これは、以下の実例を見ていただくのが一番よいだろう。 #!/usr/bin/perl use strict; use warnings; use utf8 (); sub check_flag{ my $str = shift; print qq("$str" ), utf8::is_utf8($str) ? 'is' : 'IS NOT',

iwazer 2009/06/15

perl
encode

リンク

tips - "%E5%BC%BE" を「弾」にするには? : 404 Blog Not Found

2009年05月01日14:00 カテゴリTipsLightweight Languages tips - "%E5%BC%BE" を「弾」にするには? これ、昨今では最もよく再発明されている車輪の一つかも。検索サイトなどのURL中に含まれる「％＋１６進」の形にエンコードされた日本語文字列（例えばI%E3%82%B7%E3%83%A1%E3%82%B8I）を、LinuxのCUI上でデコードする簡単な方法は.. - 人力検索はてな最古の文字コード変換プログラムの一つであるnkfが対応していたとは知らなかった。 JavaScriptで decodeURIComponent()を使えばOKです。以下、例。 Decoded: Encoded: <dl> <dt>Decoded:</dt> <dd><input id="uri.decoded" type="text" size="64" val

iwazer 2009/05/01

encode

リンク

Oracle DatabaseのJA16SJISには２種類ある : SIer魂

ちょこっとメモ書き。 Oracle DatabaseのSJISには２種類がある。１．JAPANESE_JAPAN.JA16SJIS ２．JAPANESE_JAPAN.JA16SJISTILDE その違いは、取り出した文字をUNICODEで扱う場合に、「〜」が化けるか否か。 ※その他の最新情報は公式マニュアル参照

iwazer 2009/04/13

リンク

Ruby で UTF-8 の文字化け部分を取り除く - てっく煮ブログ

ruby RSS を拾ってきてパースしようとしたら、不正な文字列が入っていて REXML が ParseException を投げてしまった。文字コードが UTF-8 前提だったので、UTF-8 として valid な文字のみが含まれるように置換して対処した。 str = str.scan(/([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7][\x80-\xBF]{3})/).join Ruby じゃなくても同じようなコードで対処できそう。関連：UTF-8 の正規表現は 404 Blog Not Found:UTF-8 vs. ISO-10646 から拝借したPHP なら $xmlStr = mb_convert_encoding($xmlStr, "UTF-8", "UTF-8"); でいけるら

iwazer 2008/11/13

リンク

404 Blog Not Found:perl - Encode 入門

2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改めだまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです！とにかくこの基本方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

iwazer 2008/08/24

リンク

404 NOT FOUND | Kagayaku

【検証画像63枚】高畑充希は目頭切開による整形が濃厚！2013～2014年に施術している説の根拠とは？

iwazer 2007/02/15

リンク

シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら

iwazer 2006/06/28

encode

リンク

[を] UTF-8 の文字にマッチする正規表現

UTF-8 の文字にマッチする正規表現 2006-03-09-1 [Programming] UTF-8の文字にマッチする正規表現の素直版。レガシーなのに対応するとき用にメモ。 [\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7] [\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5} 1 2 3 4 5 60xxxxxxx 110xxxxx10xxxxxx 1110xxxx10xxxxxx10xxxxxx 11110xxx10xxxxxx10xxxxxx10xxxxxx 111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx 1111110x10xxxxxx10xxxxxx10xxxxx

iwazer 2006/04/11

411
encode

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

encodeに関するiwazerのブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2025年3月第3週）

今週のはてなブックマーク数ランキング（2025年3月第2週）

月間はてなブックマーク数ランキング（2025年2月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス