mitsubachi

mitsubachiはウェブサイトをクローリングするためのクラウドプラットフォームサービス(PaaS)です。 環境構築などの準備を一切必要とせず、ユーザーは簡易なスクリプトをmitsubachiサーバにアップロード するだけで、ウェブ上の欲しい情報を高速に収集し保存します。ユーザーは、少しの技術力とアイデアを持っていれば、新たなクローラビジネスを始める事ができます。

mitsubachiの使い方

mitsubachiは以下の手順で利用することができます。

プロジェクトの作成
クローリングの目的ごとに作業領域(プロジェクト)を作成します。プロジェクトには一意の名前をつけます。
スクリプトのアップロード
クローリングの内容を記述したスクリプトを作成し、プロジェクト内にアップロードします。アップロードしたスクリプトは必要に応じて随時修正することができます。
クロールのリクエスト
リクエストを受け取ったmitsubachiサーバがクロールを実行します。 取得したデータはAmazon Simple Storage Service (Amazon S3)上のmitsubachiストレージと呼ばれる保存領域に格納されますが、用途に応じて直接MySQLなどの外部ストレージに格納することもできます。
データのダウンロード
クロール完了後、ユーザーは事前に保存先に指定したストレージからデータを自由に取り出すことができます。

サービス概要

mitsubachiは以下のような特長があります。

自由に設定
情報を取得するために必要なスクリプトはユーザーが自由に設定することができます。 たとえば取得したいウェブサイトが変更された場合や、ターゲットサイトを変更したくなった場合などにも、 ユーザー自身で迅速に修正・変更をおこなうことが可能です。
APIインターフェース
mitsubachiを利用するために必要なすべての機能はweb APIで提供しています。一から手続きをプログラミングすることなく、インターネットに接続できる環境であればどこからでもクローリングを開始することができます。
選べるストレージ
取得したデータの格納先はAmazon Simple Storage Service (Amazon S3)上のmitsubachiストレージ、もしくはユーザーで用意した外部のRDBMSなどに格納することができます。 用途に応じて、たとえば画像ファイルをクロールする場合はmitsubachiストレージに、アプリケーションから直接クロールデータを利用したい場合はデータベースに、それぞれ格納先を指定することが可能です。
豊富なログ設定
プロジェクト単位に、標準出力ログ・標準エラーログ・システムログの3種類のログの出力可否を設定することができます。 時間のかかるクローリング状況や、異常検知などをいち早く把握することが可能です。

ユーザー向けリソース

ユーザー向けに以下のリソースを公開しています。

仕様

mitsubachiは以下のような仕様になっております。更に詳細な仕様についてはドキュメントをご覧ください。

システム仕様

ユーザー(Client)はweb API(API)を経由してクローラ(CrawlerCluster)およびストレージ(Storage)を操作することができます。

API

mitsubachiは以下のようなweb API インターフェースを用意しています。

API名 概要
Http API
http_fetch URLを指定し、HTTP Responseを指定したscriptで解析します。
http_push 指定したファイルをHTTPのmultipart/form-paramで送信します。
Project API
project_create プロジェクトを作成します。
project_delete プロジェクトを削除します。
project_update プロジェクトのオプションを変更します。
project_info プロジェクトの情報を返します。
project_discontinue 現在稼働中のクローリングを中止します。
project_queues 指定されたプロジェクトの現在の未処理のキューの数を取得します。
project_list プロジェクトの一覧を取得します。
Storage API
storage_delete ストレージ(リソース領域)内の指定したファイルを削除します。
storage_get ストレージ(スクリプト領域)内の指定したファイルを削除します。
storage_list ストレージに保存されているデータの一覧を取得します。
storage_store ストレージにファイルを保存します。
Script API
script_delete ストレージ内の指定したファイルを削除します。
script_deploy 指定したスクリプトファイルをデプロイします。
script_list 指定したプロジェクトにデプロイされているスクリプトの一覧を取得します。
script_get デプロイしたスクリプトファイルを取得します。

使用目的と制約

このサービスの使用目的は 利用規約 に基づくものでなければなりません。