ブログに限らず、色々なサイトの記事内容を自動で取得するようなプログラムを書いてるんですが
Yahoo!ニュースが旨くパースできてないと思って良く調べてみると。
HTMLヘッダ部分に、文字コードを指定するコードがない。
で、自動でエンコード取得しようとすると、文字化けするようなコードがコメントで入ってて全然違う文字コードが検出されちゃう。
これは多分、こういったプログラムでのデータ取得を阻止しようとしてるんだろうなぁ・・・
とりあえず、文字コード検出前にヘッダ部分のコメントを削除するようにしたので問題解決。
この方法簡単に回避できるだけに、変な対策方法がちょっと面白いなぁと思った。
すーぱーはかーのジェイソンと話してたら、この方法コンテンツ系のサイトで結構使われてるっぽい(笑)
速攻で対策できるとはいえ、yahooニュースを見なかったら気付かなかったので、意味がある対策といえば意味のある対策なんだろうか。