[B! scraping] maeda_toriのブックマーク

maeda_tori id:maeda_tori

scrapingに関するmaeda_toriのブックマーク (12)

http://aoproj.web.fc2.com/xpath/XPath_cheatsheets_v2.pdf
maeda_tori 2016/01/23
class

form

node

Nokogiri

xml

scraping

xpath

チートシート

便利

cheatsheet
リンク
RubyでSeleniumを使ってスクレイピング - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
maeda_tori 2015/10/22
ruby

scraping

Nokogiri

gem

インストール

スクレイピング

*あとで読む

プログラミング
リンク
まだmechanizeで消耗してるの? WebDriverで銀行をスクレイピング（ProtractorとWebdriverIOを例に） - 詩と創作・思索のひろば
今日はスクレイピングの話をします。今回のターゲットは三菱東京UFJダイレクト。金融機関もウェブサービスを提供するようになり、金にまつわる情報を電子化しやすくなりましたが、かれらが API を提供しているわけではないので、私たちのほうで取得・加工をしてやる必要があります。今やウェブサイトであれば当然のように JavaScript を使っているわけなので、いわゆる mechanize、つまり HTML の解釈をおこない、リンクのクリックやフォームの送信をシンプルに実装するようなやり方でのスクレイピングはすでに無理筋だといえます。もちろん今日においてはブラウザオートメーションという方法がすでにありますので、これを利用してやれば、なんの憂いもなく実際に人間が使うようなブラウザをプログラマティックに操作することができます。現在は Selenium WebDriver がデファクトで、これが使用す
maeda_tori 2015/10/22
スクレイピング

Mechanize

webdriver

scraping

Javascript

*あとで読む

プログラミング
リンク
RubyによるWebスクレイピング(2): Capybaraで対話的ブラウジング [Ruby] All About
RubyによるWebスクレイピング(2): Capybaraで対話的ブラウジングCapybaraを利用してウェブを操作・情報を取得する方法を紹介します。はじめに前回の記事では、WebのHTMLを取得し、Nokogiriを使ってパースする方法を紹介しました。今回の記事では、Capybara を利用してウェブを操作・情報を取得する方法を紹介します。 Capybaraとは jnicklas/capybara - GitHub Capybaraはウェブアプリケーションのテストを行うためによく使われるライブラリです。しかしテストのみに留まらず、ドライバ(後述)を切り替えることによって実際のブラウザに近い動きをするためWebのスクレイピングに利用できます。とりわけ、Nokogiri単体ではやや手に余る、ログインを必要とするWebスクレイピングやJavaScriptの実行を含んだ動作を簡潔な文法
maeda_tori 2015/10/18
ruby

スクレイピング

scraping

capybara

プログラミング
リンク
Mechanizeでページ遷移しながらスクレイピング - Qiita
ちょっとダルいポイントが有ったのでメモ程度に。スクレイピング対象サイトとスクレイピングの流れはページャで何ページか一覧ページがある一覧ページのタイトルをクリックすると詳細ページが見れる詳細ページの一部を使用また他のタイトルをクリックしていく CSVで出力（別にいらないけどメモ代わりに。。）みたいな感じです。mechanizeだけでやります。 require 'mechanize' require 'csv' class ScrapingPages def initialize @agent = Mechanize.new @data = [] end def retrieve # 1ページ目から10ページ目までスクレイピングする (1..10).each do |i| page = @agent.get(url(i) each_section(page) do |section
maeda_tori 2015/09/22
scraping

data

クリック

スクレイピング

URL

Mechanize

Ruby

プログラミング
リンク
スクレイピングのためのNokogiri利用メモ - それはそれ、これはこれ
スクレイピングのチュートリアルを書いてみた。参考：http://nokogiri.rubyforge.org/nokogiri/Nokogiri.html まだまだたくさんのクラスやメソッドがあるが(読んでない)、HTMLのスクレイピングに限定すれば多分これくらいで十分。 2014-02-16追記なんかたくさんブックマークされていることに気づいたので、サンプルコードのRuby1.9/2対応のアップデート。 Mechanize周りも修正。WWW::Mechanize → Mechanize 等 (0) 前提知識 Ruby、HTML、DOM、CSSセレクタまたはXPath (1) クラス構造の理解 Nokogiri::HTML::Document < Nokogiri::XML::Document < Nokogiri::XML::Node < Object Nokogiri::XML::
maeda_tori 2015/09/21
Nokogiri

html

xml

ruby

スクレイピング

tutorial

programming

scraping

library

プログラミング
リンク
RubyのNokogiriを使ってサイトをスクレイピングする - Think Big Act Local
Rubyのライブラリ「Nokogiri」を使ってみました。 Nokogiriとは HTMLやXMLをパースするためのRubyライブラリ XPathやCSSセレクタを使ったパースが可能公式：http://nokogiri.org/ 試した環境 ruby 1.9.3 簡単なサンプル Qiitaにあがっていたものを拝借 - Nokogiriで文字化けを防ぐ - Qiita sample.rb # -- coding: utf-8 require "open-uri" require "rubygems" require "nokogiri" # スクレイピングするURL url = "https://www.walmart.com.br/" charset = nil html = open(url) do |f| charset = f.charset f.read end doc = No
maeda_tori 2015/09/20
Nokogiri

URL

html

xpath

ruby

node

スクレイピング

scraping

#ruby

プログラミング
リンク
Nokogiri の基本(翻訳版) - Engine Yard Blog JP | Engine Yard Blog JP
本記事は英語版ブログで2010年1月14日に公開された記事の翻訳版です。Engine Yard ブログでは少し趣向を変えて、コミュニティのメンバーによるゲスト投稿を募ることにしました。今回の (初めての!) ゲスト投稿は Aaron Patterson 氏によるものです。Ruby コミュニティの長年のメンバーである同氏は Nokogiri の作成者でもあります。Seattle.rb の開発者とともにコーディングに勤しむ一方、世界各地で行われる業界の会議やイベントに出向いて Nokogiri や他の Ruby 関連のトピックについて講演を行っています。 Nokogiri は XML ドキュメントと HTML ドキュメントを扱うためのライブラリです。Nokogiri は私の良き相棒 Mike Dalessio と一緒に開発しました。2 人とも Nokogiri を使って毎日 HTML や XM
maeda_tori 2015/09/13
Nokogiri

インストール

html

ruby

スクレイピング

development

scraping

xpath

プログラミング

まとめ
リンク
URLを入力するだけ！コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」
import.ioとは import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。 URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。以下では、その簡単な使い方や、利用例などを紹介したいと思います。定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。基本的な使い方import.ioの最大の特徴は、使い方の簡単さです。以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。
maeda_tori 2015/08/21
データ

URL

Webサービス

ツール

サービス

*あとで読む

スクレイピング

webservice

scraping
リンク
Anemone - Ruby Web-Spider Framework
An easy-to-use Ruby web spider framework What is it? Anemone is a Ruby library that makes it quick and painless to write programs that spider a website. It provides a simple DSL for performing actions on every page of a site, skipping certain URLs, and calculating the shortest path to a given page on a site. The multi-threaded design makes Anemone fast. The API makes it simple. And the expressive
maeda_tori 2015/04/29
anemone

ruby

programming

クローラ

scraping

library

crawler

プログラミング
リンク
iTunesStoreのランキング | Rubyで始めるWebスクレイピング
4. ✦ プロフィール ‣ Webシステムを得意とするSIerで勤務 ‣ 最近の仕事はAWS事業の推進・インフラチームのマネジメント ‣ Webスクレイピングして、データマイニングするのが趣味 ★ ソーシャル・ネットワーク ‣ blog: http://blog.takuros.net/ ‣ twitter: @dkfj ‣ Facebook: takuro.sasaki ‣ SlideShare: http://www.slideshare.net/takurosasaki/ @dkfj 自己紹介：　佐々木拓郎
maeda_tori 2015/04/29
ruby

Nokogiri

スクレイピング

web

クローラー

anemone

scraping

勉強

まとめ

読み物
リンク
Home必发全球顶尖娱乐首页|最佳线路
系统提示您访问的页面未找到， 5秒后自动跳转到首页
maeda_tori 2013/11/04
PHP

スクレイピング

PEAR

scraping

ネタ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx