上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    ruby mechanize link 抽出できない (文字コード指定編)

    ruby mechanize link 抽出できない (パーサ変更編)
    で対応した問題がまだ続いていたのです。

    やっぱりリンクの抽出がおかしくて、途中で終わっているページがありました。
    今回はパーサの変更では対応できなかったようで、パーサを変更すると別のエラーが出ます。
    (なんか<=>メソッドがないとかなんとか)

    なので、いろいろ悩んだのですが、
    一応解決したようなので、対応方法を記します。

    ■解決方法
    EUC-JPで書かれたページだったので、文字コードを指定したところ、
    うまく抽出できるようになりました。
    方法はページを取得した後、エンコーディングを指定します。
    page = agent.get(next_page)
    page.encoding = "EUC-JP-MS"
    (iconvが古いと、 "EUC-JP-MS" がないようです。注意しましょう!)


    対処療法なのがいまいちですが、仕方がないです・・・

    コメントの投稿

    非公開コメント

    Google広告
    Amazon商品紹介
    Amazon
    楽天
    最新記事
    最新コメント
    最新トラックバック
    月別アーカイブ
    プロフィール

    アブラクサス太郎

    Author:アブラクサス太郎
    FC2ブログへようこそ!

    カテゴリ
    検索フォーム
    RSSリンクの表示
    リンク
    ブロとも申請フォーム

    この人とブロともになる

    QRコード
    QR
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。