マジセミドライブ

ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。

OSS情報

2020.01.01

【OSS情報アーカイブ】Apache ManifoldCF

【OSS情報アーカイブ】Apache ManifoldCF

※当記事に記載されている情報は、古くなっている場合があります。オフィシャルサイトで最新情報をご確認ください。

「Apache ManifoldCF」とは

基本情報

概要

Apache ManifoldCF(アパッチマニフォールドシーエフ)とは、オープンソースクローラフレームワークです。インターネット上やイントラネット内のさまざまなサーバに保管されているドキュメントコンテンツ(Webページ/文書ファイル/DBデータなど)を収集し、それを検索エンジンに送ります。

「クローラ」とは

Web/社内ファイルサーバなどに保管されている文書を自動的に収集するプログラムです。「ロボット」などと呼ばれることもあります。検索エンジンシステムには不可欠な収集機能です。

基本説明

「Apache ManifoldCF」は、Apacheソフトウェア財団のインキュベータプロジェクトです。検索エンジン「Apache Solr」の関連プロジェクトとして開発されており、「Apache Solr」との連携を想定して作られています。

Web、Windowsサーバ、SharePointサーバ、各種データベースなどから、さまざまなドキュメントデータをクロールするオープンなコネクタフレームワークです。

HTMLだけではなく、HTML/RSSフィードからリンクを探索して、リンク先に存在するドキュメントまでクロールできます。

「Apache ManifoldCF」は大量多様なコンテンツに対するクロール結果を検索エンジンに渡します。検索エンジンは、その結果を元にしてインデックスを構築します。

3つのコネクタ

「コネクタ」とは、外部システムとの接続のことを表します。「ManifoldCF」には、3つのコネクタがあります。
1.「レポジトリコネクタ」 コンテンツ/レポジトリ入力元(Web/ファイルサーバ/データベースなど)
2.「アウトプットコネクタ」 クロール情報の出力先(Apache Solr)
3.「オーソリティコネクタ」 セキュリティ/パーミッション設定参照先(Active Directory)

「Apache ManifoldCF」と「Apache Nutch」の違い

Apacheプロジェクトには、他にもクローラとして「Apache Nutch」があります。

「Nutch」がWebクローラ特化型であるのに対して、「ManifoldCF」は、Webだけではなくさまざまなリポジトリに対してクロールを行えます。さらに、セキュリティ情報に配慮して検索できるという優位性もあります。

経緯

「ManifoldCF」の「CF」は、「Connector Framework」の略称です。

ManifoldCFは、MetaCarta社によって開発されました。5年間の開発期間を経て、2009年12月に、「Apache Software Foundation」にソースコードが寄贈されました。

主な機能

認証基盤(AtiveDirectory)連携機能

認証基盤(ActiveDirectoryなど)と連携して、クロール時に権限情報もセットで保管することにより、ユーザ単位で表示内容を制限できます。「人事部のデータは、人事部所属のユーザのみ表示される」といった設定が可能です。

同時並行収集機能

複数のリポジトリに対して、同時並行クロールが可能です。

Elasticsearch対応

クロール結果は「Solr」のみではなく、「Elasticsearch」を出力先とすることもできます。

差分更新機能

一括更新のみではなく、差分更新も可能です。

主な特徴

可用性

シャットダウン/再起動からの回復力が強く信頼性の高いフレームワークです。

RDBMSを利用

ManifoldCFは、リレーショナルデータベースを利用します。「PostgreSQL」「Derby」「MySQL」などに対応しています。

同様製品(概要情報)

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品:「Apache Nutch」など。

導入事例

「Apache Solr」とセットで利用されることが多く、マルチに使えるクローラとして注目されています。

ライセンス情報

「Apache ManifoldCF」のライセンスは、「Apache License Version 2.0」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。

ダウンロード

ダウンロードページ

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

この記事のタグ一覧

おすすめの記事

経営活動に活用できる 原価管理 を実現するには? 〜製造業の現実的な課題に向き合い、現場視点から改善する原価管理手法の必達プロセスをご紹介〜

ウェビナーまとめ

2024.05.15

経営活動に活用できる 原価管理 を実現するには? 〜製造業の現実的な課題に向き合い、現場視点から改善する原価管理手法の必達プロセスをご紹介〜

2024年3月12日に三菱電機ITソリューションズ株式会社とアットストリームパートナーズ合同会社の共催で、組立加工製造業向けのセミナー「なぜか高くなる原価を管理する 不確実性の時代を乗り切るためのコスト戦略とは」が開催されました。本セミナーでは、製造業における原価管理の現状と改善手法について深く掘り下げ、経営活動への具体的な活用方法を提示しました。今回は、その講演の要点をお伝えします。

【OSS情報】LLMトレーニング用ライブラリ「 GPT-NeoX 」📚

OSS情報

2024.07.18

【OSS情報】LLMトレーニング用ライブラリ「 GPT-NeoX 」📚

「 GPT-NeoX 」は、GPU上で大規模言語モデル(LLM)を効率的にトレーニングするためのライブラリです。NVIDIAのモデルを基に独自の最適化が加えられ、オートレグレッシブ言語モデルのトレーニング手法を集約しています。

【OSS情報】WebベースAPI開発スイート「 Hoppscotch 」🌐

OSS情報

2024.07.04

【OSS情報】WebベースAPI開発スイート「 Hoppscotch 」🌐

「 Hoppscotch 」は、オープンソースのAPI開発エコシステムで、使いやすさとアクセシビリティを重視した軽量なWebベースのスイートです。無料版と有料版があり、PostmanやInsomniaの代替として利用可能です。