mitsubachi
mitsubachiはウェブサイトをクローリングするためのクラウドプラットフォームサービス(PaaS)です。 環境構築などの準備を一切必要とせず、ユーザーは簡易なスクリプトをmitsubachiサーバにアップロード するだけで、ウェブ上の欲しい情報を高速に収集し保存します。ユーザーは、少しの技術力とアイデアを持っていれば、新たなクローラビジネスを始める事ができます。
mitsubachiはウェブサイトをクローリングするためのクラウドプラットフォームサービス(PaaS)です。 環境構築などの準備を一切必要とせず、ユーザーは簡易なスクリプトをmitsubachiサーバにアップロード するだけで、ウェブ上の欲しい情報を高速に収集し保存します。ユーザーは、少しの技術力とアイデアを持っていれば、新たなクローラビジネスを始める事ができます。
mitsubachiは以下の手順で利用することができます。
mitsubachiは以下のような特長があります。
mitsubachiは以下のような仕様になっております。更に詳細な仕様についてはドキュメントをご覧ください。
ユーザー(Client)はweb API(API)を経由してクローラ(CrawlerCluster)およびストレージ(Storage)を操作することができます。
mitsubachiは以下のようなweb API インターフェースを用意しています。
| API名 | 概要 |
|---|---|
| Http API | |
| http_fetch | URLを指定し、HTTP Responseを指定したscriptで解析します。 |
| http_push | 指定したファイルをHTTPのmultipart/form-paramで送信します。 |
| Project API | |
| project_create | プロジェクトを作成します。 |
| project_delete | プロジェクトを削除します。 |
| project_update | プロジェクトのオプションを変更します。 |
| project_info | プロジェクトの情報を返します。 |
| project_discontinue | 現在稼働中のクローリングを中止します。 |
| project_queues | 指定されたプロジェクトの現在の未処理のキューの数を取得します。 |
| project_list | プロジェクトの一覧を取得します。 |
| Storage API | |
| storage_delete | ストレージ(リソース領域)内の指定したファイルを削除します。 |
| storage_get | ストレージ(スクリプト領域)内の指定したファイルを削除します。 |
| storage_list | ストレージに保存されているデータの一覧を取得します。 |
| storage_store | ストレージにファイルを保存します。 |
| Script API | |
| script_delete | ストレージ内の指定したファイルを削除します。 |
| script_deploy | 指定したスクリプトファイルをデプロイします。 |
| script_list | 指定したプロジェクトにデプロイされているスクリプトの一覧を取得します。 |
| script_get | デプロイしたスクリプトファイルを取得します。 |