スクレイピング

サイトのクローリングにはScrappyがすごくいいかもしれない

クローリング楽しいですよね! perlで高速にクロールしたいのであればGunghoなど使うのがいいかもしれませんが、 基本手軽にやりたいことが多いので WWW::Mechanize+Web::Scraper という組み合わせでクロールするのが定番でした。 しかしたまたま Scrappy を…

HTMLを解析し特定の要素以下のHTMLをそのまま取得したい場合

あけましておめでとうございます。 さて、HTMLを解析して 特定の要素以下のHTMLをそのまま取得したい場合。 こうですか!>< use LWP::Simple qw/get/; use HTML::TreeBuilder::XPath; my $content = get("http://d.hatena.ne.jp/tori243/20100123/12642633…

Web::ScraperでURIを使うのとテキストを突っ込むのとでは結果が異なる

テスト用サイト 価格.comのゲーム本体カテゴリから、 「売れ筋ランキング」「注目ランキング」「満足度ランキング」の2位の情報だけ スクレイピングして持ってくる http://kakaku.com/game/game-console/ スクレイピング1:LWPのgetでテキスト突っ込む use…