この記事は Google Cloud Translation APIを使用した自動翻訳です。
いくつかの文書は原文を読むのに良いかもしれません。
Scrapy は、Python で書かれた無料のオープンソースの Web クローリング フレームワークです。 Web サイトからデータを抽出するために使用され、データ マイニング、情報処理、履歴アーカイブなど、幅広いアプリケーションに使用できます。
Scrapy は、Web サイトからデータを抽出するための完全なツールキットを提供する Web クローリング フレームワークです。これは、高速、シンプル、および拡張可能になるように設計されています。このフレームワークは Twisted 非同期ネットワーク ライブラリの上に構築され、Web スパイダーを定義および実行するための高レベル インターフェイスを提供します。
Scrapy スパイダーは Python で記述でき、単純な構文を使用して Web サイトから抽出するデータを定義できます。このフレームワークは、HTML および XML ドキュメントからのデータの選択と抽出のサポート、リンクの追跡、複数ページのスクレイピングのサポートなど、一連の組み込み機能を提供します。また、クラウドでスパイダーを実行するための Web サービスと、スパイダーを監視および管理するための Web コンソールも含まれています。
Scrapy は、データ マイニング、情報処理、履歴アーカイブなど、さまざまなアプリケーションに使用されます。連絡先情報、製品リスト、価格などの構造化データを Web サイトから抽出するために使用できます。また、複数のページからデータを収集したり、1 つのページからデータを複数回スクレイピングしたりするなど、Web スクレイピング タスクを自動化するためにも使用されます。
Scrapy は、Web スクレイピングおよびデータ処理会社である Scrapinghub によって 2008 年に最初にリリースされました。商用の Web スクレイピング ツールに代わるオープンソースのツールとして作成され、以来、最も人気のある Web スクレイピング フレームワークの 1 つになりました。
Scrapy は、Web スクレイピングをより簡単かつ効率的にするためのさまざまな機能を提供します。
Web サイトからデータを抽出する Scrapy スパイダーの例を次に示します。
パイソン
スクレイピーを輸入する
クラス MySpider(scrapy.Spider):
name = "ミスパイダー"
start_urls = ["http://example.com/"]
デフパース(自己、応答):
response.css('div.product') の製品の場合:
収率 {
'名前': product.css('h3.name::text').get(),
'価格': product.css('span.price::text').get(),
}
# 長所と短所
Scrapy は、Web スクレイピングの強力なツールとなるさまざまな機能を提供します。高速で使いやすく、拡張可能です。また、JavaScript でレンダリングされた Web サイトからデータを抽出するための組み込みサポートも提供します。
ただし、Scrapy はすべての Web スクレイピング タスクに適しているわけではありません。 Web サイトからのデータの抽出に限定されており、データベースや API などの他の種類のデータ ソースはサポートされていません。
# 関連技術
Scrapy は、Beautiful Soup や Selenium などの他の Web スクレイピング フレームワークに関連しています。また、Apify や ParseHub などの Web スクレイピング サービスにも関連しています。
# 余談
Scrapy は Web スクレイピングに使用されるだけでなく、フォームへの入力やデータの送信などの Web 自動化タスクにも使用できます。
# その他
Scrapy は、Python で書かれた人気のあるオープンソースの Web スクレイピング フレームワークです。 Web サイトからデータを抽出するために使用され、幅広いアプリケーションに使用できます。 HTML および XML ドキュメントからのデータの選択と抽出のサポート、リンクの追跡と複数ページのスクレイピングのサポートなど、Web スクレイピングをより簡単かつ効率的にする一連の機能を提供します。