Submit Search
クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
Sep 3, 2011
Download as PPTX, PDF
36 likes
13,493 views
ひとし あまの
シス創勉強会資料
Read less
Read more
1 of 17
Download now
Downloaded 181 times
Recommended
ウェブアプリのセキュリティをちゃんと知ろう (毎週のハンズオン勉強会の資料)
ウェブアプリのセキュリティをちゃんと知ろう (毎週のハンズオン勉強会の資料)
ひとし あまの
ウェブから情報をあつめる
ウェブから情報をあつめる
Shuhei Iitsuka
NAVER まとめを題材に、ウェブから情報を集めるクローラ、スクレイパーの設計について
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
Shinsuke Sugaya
LastaFluteでKotlinを使うための方法を紹介します。
最新PHP事情 (2000年7月22日,PHPカンファレンス)
最新PHP事情 (2000年7月22日,PHPカンファレンス)
Rui Hirokawa
記念すべき第1回PHPカンファレンスのプレゼン資料です。2000年の資料のため、技術的には賞味期限切れですが、単純に懐かしみたい方にどうぞ。
PHPの今とこれから2019
PHPの今とこれから2019
Rui Hirokawa
PHPカンファレンス2019のプレゼン資料です。2019年11月にリリースされたPHP 7.4を中心に、PHP 8のJITの話題も紹介します。
PHPの今とこれから2021
PHPの今とこれから2021
Rui Hirokawa
PHP Conference Japan 2021の発表プレゼン資料です.PHP 8.1の新機能を中心に最近のPHPの話題についてお話します.
PHP基礎勉強会
PHP基礎勉強会
Yuji Otani
社内で行ったPHP基礎勉強会の資料です。深い内容までは踏み込んでいませんが、幅広い内容を取り上げています。
PHP の GC の話
PHP の GC の話
y-uti
第 87 回 PHP 勉強会での発表資料です。PHP の処理系に採用されている参照カウント方式の GC と循環参照を回収するアルゴリズムについて簡単に説明します。また、特定の限られた状況で循環参照の回収が処理速度に悪影響を与えることを、簡単なサンプルプログラムを用いて示します。
PHPの今とこれから 2013
PHPの今とこれから 2013
Rui Hirokawa
PHPカンファレンス2013における講演のプレゼン資料: PHP 5.5の新機能を含むリリース情報、PHP 5.6へ向けての展望など。
PHP, Now and Then 2011
PHP, Now and Then 2011
Rui Hirokawa
Presentation material for the PHP Conference 2011 at Tokyo, JAPAN (written in Japanese.)
Prophecyを使ったユニットテスト
Prophecyを使ったユニットテスト
Akio Ishida
PHPカンファレンス北海道2016
HHVM Hack
HHVM Hack
Masaaki Yonebayashi
HHVM Hack BPStudy#81 original file : http://yone098.github.io/hhvm-hack/#/
Hack/HHVM 入門
Hack/HHVM 入門
y-uti
プログラミング言語 Hack と、その仮想機械である HHVM の紹介です。勤務先の社内勉強会での発表資料に加筆したものです。
最近の PHP の話
最近の PHP の話
y-uti
勤務先の社内勉強会での発表資料です。PHP 7.0 で新たに導入された機能と、PHP 7.1 で導入される予定の機能について、主だったところをざっと紹介したものです。
Web技術勉強会 20100925
Web技術勉強会 20100925
龍一 田中
PHPの今とこれから2014
PHPの今とこれから2014
Rui Hirokawa
Webアプリケーション構築用スクリプト言語として進化し続けるPHPの今とこれからについて講演します。この一年、PHP 5.6リリースを始め、PHPの進化系とも言えるHack/HHVMの公開など、PHPには様々な話題がありました。PHPNGとしてアナウンスされた次期メジャーバージョンアップPHP 7.0の話題等、今後の方向と課題についてもとりあげます。
仕事の手離れを良くする手段としての、静的検査のあるテンプレートエンジン (YATT::Lite talk at 2014 テンプレートエンジンNight)
仕事の手離れを良くする手段としての、静的検査のあるテンプレートエンジン (YATT::Lite talk at 2014 テンプレートエンジンNight)
Hiroaki KOBAYASHI
2014-10-17 に開催された勉強会、テンプレートエンジン Night で YATT::Lite について発表した時のスライドです。 実際のトークでは FAQ は割愛しました。 なお、revealjs で書いた元スライドは下記にも置いてあります http://buribullet.net/~hkoba/2014tenight/ こちらの方がスライド内のリンクが有効なので、良いかもしれません。
.htaccessによるリダイレクト徹底解説
.htaccessによるリダイレクト徹底解説
Cherry Pie Web
2013年9月29日 WordBench京都
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
Yoshio Hanawa
第六回闇PHP勉強会発表資料
⑲jQueryをおぼえよう!その5
⑲jQueryをおぼえよう!その5
Nishida Kansuke
https://www.facebook.com/TonosamaLabo
知ってるようで意外と知らないPHPの便利関数
知ってるようで意外と知らないPHPの便利関数
Wataru Terada
知ってるようで意外と知らないPHPの便利関数
PHPの今とこれから2020
PHPの今とこれから2020
Rui Hirokawa
2020年11月にリリースされたPHP 8の話題を中心に,PHPの最近の話題について紹介します.
最強オブジェクト指向言語 JavaScript 再入門!
最強オブジェクト指向言語 JavaScript 再入門!
Yuji Nojima
この資料では、JavaScript でオブジェクト指向プログラミングを行う際に備えておくことが望ましい、基礎知識や概念について解説します。 【対象者】 ・JavaScript でアプリケーションを構築できる方 ・JavaScript におけるオブジェクト指向プログラミングの 実現手法や原理への理解を深めたい方 ・Java 的なクラスベースの言語との違いに違和感や混乱を 感じてらっしゃる方
Webシステム脆弱性LT資料
Webシステム脆弱性LT資料
Tomohito Adachi
勉強会やLTで発表した資料です。 エンジニアだけでなくWebシステムに関わる人達にも。
【SQLインジェクション対策】徳丸先生に怒られない、動的SQLの安全な組み立て方
【SQLインジェクション対策】徳丸先生に怒られない、動的SQLの安全な組み立て方
kwatch
SQLインジェクションを・・・駆逐してやる!! この世から・・・一匹残らず!! (PHPカンファレンス2015)
PDOでデータベース接続と SQLインジェクション対策
PDOでデータベース接続と SQLインジェクション対策
iPride Co., Ltd.
2021/03/12の勉強会で発表されたものです。
Perl logging
Perl logging
keroyonn
System4 comment h
System4 comment h
Jun Chiba
FuelPHP Osu Nagoya vol.1
FuelPHP Osu Nagoya vol.1
Fumito Mizuno
FuelPHP 勉強会の資料。 fuel.php-web.net を題材としている。 FuelPHP の概要、PHPTAL や PHPUnit 等 名古屋コワーキングスペース アートファクトリーで開催
PHPの今とこれから2024 at PHP Conference Japan 2024
PHPの今とこれから2024 at PHP Conference Japan 2024
Rui Hirokawa
PHP Conference 2024で講演したプレゼン資料です.PHP 8.4をはじめとするPHPの最近の動向について紹介します.
More Related Content
What's hot
(19)
PHPの今とこれから 2013
PHPの今とこれから 2013
Rui Hirokawa
PHPカンファレンス2013における講演のプレゼン資料: PHP 5.5の新機能を含むリリース情報、PHP 5.6へ向けての展望など。
PHP, Now and Then 2011
PHP, Now and Then 2011
Rui Hirokawa
Presentation material for the PHP Conference 2011 at Tokyo, JAPAN (written in Japanese.)
Prophecyを使ったユニットテスト
Prophecyを使ったユニットテスト
Akio Ishida
PHPカンファレンス北海道2016
HHVM Hack
HHVM Hack
Masaaki Yonebayashi
HHVM Hack BPStudy#81 original file : http://yone098.github.io/hhvm-hack/#/
Hack/HHVM 入門
Hack/HHVM 入門
y-uti
プログラミング言語 Hack と、その仮想機械である HHVM の紹介です。勤務先の社内勉強会での発表資料に加筆したものです。
最近の PHP の話
最近の PHP の話
y-uti
勤務先の社内勉強会での発表資料です。PHP 7.0 で新たに導入された機能と、PHP 7.1 で導入される予定の機能について、主だったところをざっと紹介したものです。
Web技術勉強会 20100925
Web技術勉強会 20100925
龍一 田中
PHPの今とこれから2014
PHPの今とこれから2014
Rui Hirokawa
Webアプリケーション構築用スクリプト言語として進化し続けるPHPの今とこれからについて講演します。この一年、PHP 5.6リリースを始め、PHPの進化系とも言えるHack/HHVMの公開など、PHPには様々な話題がありました。PHPNGとしてアナウンスされた次期メジャーバージョンアップPHP 7.0の話題等、今後の方向と課題についてもとりあげます。
仕事の手離れを良くする手段としての、静的検査のあるテンプレートエンジン (YATT::Lite talk at 2014 テンプレートエンジンNight)
仕事の手離れを良くする手段としての、静的検査のあるテンプレートエンジン (YATT::Lite talk at 2014 テンプレートエンジンNight)
Hiroaki KOBAYASHI
2014-10-17 に開催された勉強会、テンプレートエンジン Night で YATT::Lite について発表した時のスライドです。 実際のトークでは FAQ は割愛しました。 なお、revealjs で書いた元スライドは下記にも置いてあります http://buribullet.net/~hkoba/2014tenight/ こちらの方がスライド内のリンクが有効なので、良いかもしれません。
.htaccessによるリダイレクト徹底解説
.htaccessによるリダイレクト徹底解説
Cherry Pie Web
2013年9月29日 WordBench京都
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
Yoshio Hanawa
第六回闇PHP勉強会発表資料
⑲jQueryをおぼえよう!その5
⑲jQueryをおぼえよう!その5
Nishida Kansuke
https://www.facebook.com/TonosamaLabo
知ってるようで意外と知らないPHPの便利関数
知ってるようで意外と知らないPHPの便利関数
Wataru Terada
知ってるようで意外と知らないPHPの便利関数
PHPの今とこれから2020
PHPの今とこれから2020
Rui Hirokawa
2020年11月にリリースされたPHP 8の話題を中心に,PHPの最近の話題について紹介します.
最強オブジェクト指向言語 JavaScript 再入門!
最強オブジェクト指向言語 JavaScript 再入門!
Yuji Nojima
この資料では、JavaScript でオブジェクト指向プログラミングを行う際に備えておくことが望ましい、基礎知識や概念について解説します。 【対象者】 ・JavaScript でアプリケーションを構築できる方 ・JavaScript におけるオブジェクト指向プログラミングの 実現手法や原理への理解を深めたい方 ・Java 的なクラスベースの言語との違いに違和感や混乱を 感じてらっしゃる方
Webシステム脆弱性LT資料
Webシステム脆弱性LT資料
Tomohito Adachi
勉強会やLTで発表した資料です。 エンジニアだけでなくWebシステムに関わる人達にも。
【SQLインジェクション対策】徳丸先生に怒られない、動的SQLの安全な組み立て方
【SQLインジェクション対策】徳丸先生に怒られない、動的SQLの安全な組み立て方
kwatch
SQLインジェクションを・・・駆逐してやる!! この世から・・・一匹残らず!! (PHPカンファレンス2015)
PDOでデータベース接続と SQLインジェクション対策
PDOでデータベース接続と SQLインジェクション対策
iPride Co., Ltd.
2021/03/12の勉強会で発表されたものです。
Perl logging
Perl logging
keroyonn
PHPの今とこれから 2013
PHPの今とこれから 2013
Rui Hirokawa
PHP, Now and Then 2011
PHP, Now and Then 2011
Rui Hirokawa
Prophecyを使ったユニットテスト
Prophecyを使ったユニットテスト
Akio Ishida
HHVM Hack
HHVM Hack
Masaaki Yonebayashi
Hack/HHVM 入門
Hack/HHVM 入門
y-uti
最近の PHP の話
最近の PHP の話
y-uti
Web技術勉強会 20100925
Web技術勉強会 20100925
龍一 田中
PHPの今とこれから2014
PHPの今とこれから2014
Rui Hirokawa
仕事の手離れを良くする手段としての、静的検査のあるテンプレートエンジン (YATT::Lite talk at 2014 テンプレートエンジンNight)
仕事の手離れを良くする手段としての、静的検査のあるテンプレートエンジン (YATT::Lite talk at 2014 テンプレートエンジンNight)
Hiroaki KOBAYASHI
.htaccessによるリダイレクト徹底解説
.htaccessによるリダイレクト徹底解説
Cherry Pie Web
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
Yoshio Hanawa
⑲jQueryをおぼえよう!その5
⑲jQueryをおぼえよう!その5
Nishida Kansuke
知ってるようで意外と知らないPHPの便利関数
知ってるようで意外と知らないPHPの便利関数
Wataru Terada
PHPの今とこれから2020
PHPの今とこれから2020
Rui Hirokawa
最強オブジェクト指向言語 JavaScript 再入門!
最強オブジェクト指向言語 JavaScript 再入門!
Yuji Nojima
Webシステム脆弱性LT資料
Webシステム脆弱性LT資料
Tomohito Adachi
【SQLインジェクション対策】徳丸先生に怒られない、動的SQLの安全な組み立て方
【SQLインジェクション対策】徳丸先生に怒られない、動的SQLの安全な組み立て方
kwatch
PDOでデータベース接続と SQLインジェクション対策
PDOでデータベース接続と SQLインジェクション対策
iPride Co., Ltd.
Perl logging
Perl logging
keroyonn
Similar to クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
(20)
System4 comment h
System4 comment h
Jun Chiba
FuelPHP Osu Nagoya vol.1
FuelPHP Osu Nagoya vol.1
Fumito Mizuno
FuelPHP 勉強会の資料。 fuel.php-web.net を題材としている。 FuelPHP の概要、PHPTAL や PHPUnit 等 名古屋コワーキングスペース アートファクトリーで開催
PHPの今とこれから2024 at PHP Conference Japan 2024
PHPの今とこれから2024 at PHP Conference Japan 2024
Rui Hirokawa
PHP Conference 2024で講演したプレゼン資料です.PHP 8.4をはじめとするPHPの最近の動向について紹介します.
CodeIgniterによるPhwittr
CodeIgniterによるPhwittr
kenjis
CodeIgniterでのTwitterクローンの作成について。第18回 FLOSS桜山<http: />でのプレゼン資料。
Cakephp勉強会@tokyo #4
Cakephp勉強会@tokyo #4
ichikaway
第4回 cakephp勉強会 LT発表資料
System4 comment
System4 comment
Jun Chiba
運用構築技術者の為のPSプログラミング第1回
運用構築技術者の為のPSプログラミング第1回
Shigeharu Yamaoka
TW社内勉強会用の資料です。内容は自社のインフラ技術者向けのPowerShellのプログラミング基礎となっています。基本的な使い方と文法の説明が中心です。
WebAPIではじめるphp入門
WebAPIではじめるphp入門
Hiroaki Murayama
「Html sql」で図書館hpにアクセスしてみよう
「Html sql」で図書館hpにアクセスしてみよう
Kentaro Matsui
Modern PHP Programming @ PFI Seminar
Modern PHP Programming @ PFI Seminar
Sotaro Karasawa
いまさら聞けないRake入門
いまさら聞けないRake入門
Tomoya Kawanishi
Ruby/Rails勉強会第49回発表資料
Xml builderの紹介
Xml builderの紹介
Hiraku Nakano
10分でわかるFuelPHP @ 2011/12
10分でわかるFuelPHP @ 2011/12
kenjis
PHP 5.3用フレームワーク「FuelPHP」の紹介プレゼン資料
webを飾る技術
webを飾る技術
ina job
HTML ,CSS ,XML ,XSLT,JavaScript Japanese Only
System1
System1
Jun Chiba
Phpcon tokyo 20120_bigginer
Phpcon tokyo 20120_bigginer
Hideo Kashioka
2020/12/12 php conference in Tokyo 20th anniversary. PHP beginner session. Trac3-1 Hideo Kashioka Alleyoop Inc.
Php in ruby
Php in ruby
do_aki
Apache Torqueについて
Apache Torqueについて
tako pons
Apache Torque(あぱっち・とるく) について Javaツール勉強会@福岡 2016/08 ~データベースツールとかいろいろ~
運用構築技術者の為のPSプログラミング第2回
運用構築技術者の為のPSプログラミング第2回
Shigeharu Yamaoka
TW社内勉強会用の資料です。内容は自社のインフラ技術者向けのPowerShellのプログラミング基礎となっています。基本的な使い方と文法の説明が中心です。 ※第1回と内容が少し被っているのは前回できなかった参加者がいるためです
Windows で拡張モジュールをビルドしてみた
Windows で拡張モジュールをビルドしてみた
y-uti
第100回 PHP 勉強会での LT 発表資料です。 Windows で PECL 拡張をビルドするには PHP のソースコードと共に配布される buildconf を使うのが公式な方法ですが、phpize を用いて Linux などと同様の手順でビルドする方法を試してみました。
System4 comment h
System4 comment h
Jun Chiba
FuelPHP Osu Nagoya vol.1
FuelPHP Osu Nagoya vol.1
Fumito Mizuno
PHPの今とこれから2024 at PHP Conference Japan 2024
PHPの今とこれから2024 at PHP Conference Japan 2024
Rui Hirokawa
CodeIgniterによるPhwittr
CodeIgniterによるPhwittr
kenjis
Cakephp勉強会@tokyo #4
Cakephp勉強会@tokyo #4
ichikaway
System4 comment
System4 comment
Jun Chiba
運用構築技術者の為のPSプログラミング第1回
運用構築技術者の為のPSプログラミング第1回
Shigeharu Yamaoka
WebAPIではじめるphp入門
WebAPIではじめるphp入門
Hiroaki Murayama
「Html sql」で図書館hpにアクセスしてみよう
「Html sql」で図書館hpにアクセスしてみよう
Kentaro Matsui
Modern PHP Programming @ PFI Seminar
Modern PHP Programming @ PFI Seminar
Sotaro Karasawa
いまさら聞けないRake入門
いまさら聞けないRake入門
Tomoya Kawanishi
Xml builderの紹介
Xml builderの紹介
Hiraku Nakano
10分でわかるFuelPHP @ 2011/12
10分でわかるFuelPHP @ 2011/12
kenjis
webを飾る技術
webを飾る技術
ina job
System1
System1
Jun Chiba
Phpcon tokyo 20120_bigginer
Phpcon tokyo 20120_bigginer
Hideo Kashioka
Php in ruby
Php in ruby
do_aki
Apache Torqueについて
Apache Torqueについて
tako pons
運用構築技術者の為のPSプログラミング第2回
運用構築技術者の為のPSプログラミング第2回
Shigeharu Yamaoka
Windows で拡張モジュールをビルドしてみた
Windows で拡張モジュールをビルドしてみた
y-uti
クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
1.
クローラを作る技術と設計PHP でやるお(^ω^)
2.
目次スクレイピングの技術XPath正規表現サーバーの設計
3.
XPathXML や HTML
の任意の位置を取得するための式XPathエンジンがあれば、 XPathを指定して HTML 上の値を簡単に持ってこれる
4.
XPath<?php$url = 'http://www.nicovideo.jp/';libxml_use_internal_errors(true);$doc
= new DOMDocument();$doc->loadHTML(file_get_contents($url));libxml_clear_errors();$xpath = new DOMXPath($doc);foreach ($xpath->query('//a') as $node) { echo $node->textContent . "\n";}
5.
XPath練習ニコニコ動画の動画再生数とコメント数をスクレイピングしてみよう
6.
正規表現任意の文字列に対して、指定したパターンにマッチしているかを試すパーサーではないので、構造を持ったデータには弱い構造を持たないフラットなデータに良い。トークナイザバリデータオートマトンを描くと理解しやすい
7.
正規表現$reg = '/\As?https?:\/\/[-_.!~*'()a-zA-Z0-9;\/?:@&=+$,%#]+\z/u';if
(!preg_match($reg, $str)) { throw new Exception('URL is invalid!');}1s-_.!~*'()a-zA-Z0-9;\/?:@&=+$,%#s11\A://\zhttp222← これは優先順位X
8.
正規表現練習Apache のログファイルから、 IP
アドレス別アクセス数を出してみよう
9.
クローラの設計リクエスト時にクロールする定期的にクロールするジョブキューを使う
10.
リクエスト時にクロールする2インターネット1ウェブサーバ3
11.
定期的にクロールするインターネットデータベースサーバウェブサーバクローラサーバ
12.
ジョブキューを使うインターネットデータベースサーバデータウェブサーバjobjobjobクローラサーバ
13.
プロセス管理crondaemon
14.
cron定期的にプログラムを実行
15.
とても簡単
16.
コマンドラインで動くプログラムをそのまま使えるcron$ vim crontab.txt12
4 * * * php /home/user/crawl_user_page.php34 5 * * * php /home/user/crawl_top_page.php$ crontab < crontab.txt
17.
daemonバックグラウンドで起動するプログラム親プロセスを持たない起動方法、終了方法を準備する必要があるdaemon 用にプログラムを書かなければいけない
18.
daemonrequire_once("System/Daemon.php");System_Daemon::setOptions(array( 'appName'
=> 'crawler'));System_Daemon::start();while (true) { …System_Dameon::iterate(5);}System_Daemon::stop();