あたまがうにになる

2006年09月20日

Yahoo!ニュースの文字コード

ブログに限らず、色々なサイトの記事内容を自動で取得するようなプログラムを書いてるんですが
Yahoo!ニュースが旨くパースできてないと思って良く調べてみると。
HTMLヘッダ部分に、文字コードを指定するコードがない。

で、自動でエンコード取得しようとすると、文字化けするようなコードがコメントで入ってて全然違う文字コードが検出されちゃう。
これは多分、こういったプログラムでのデータ取得を阻止しようとしてるんだろうなぁ・・・

 

とりあえず、文字コード検出前にヘッダ部分のコメントを削除するようにしたので問題解決。
この方法簡単に回避できるだけに、変な対策方法がちょっと面白いなぁと思った。

すーぱーはかーのジェイソンと話してたら、この方法コンテンツ系のサイトで結構使われてるっぽい(笑)
速攻で対策できるとはいえ、yahooニュースを見なかったら気付かなかったので、意味がある対策といえば意味のある対策なんだろうか。

blank_space
投稿者 Lanタソ : 2006年09月20日 11:15 | トラックバック
 
blank_space
コメントする

名前を保存しますか?






blank_space
パーツ
blank_space

Adds

blank_space

カテゴリー
blank_space

Link
blank_space