マジセミドライブ

ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。

OSS情報

2020.01.01

【OSS情報アーカイブ】Apache Lucene

【OSS情報アーカイブ】Apache Lucene

※当記事に記載されている情報は、古くなっている場合があります。オフィシャルサイトで最新情報をご確認ください。

「Apache Lucene」とは

基本情報

概要

Apache Lucene(アパッチルシーン)とは、高性能/高機能/極めてスケーラブルなオープンソース全文検索エンジンライブラリです。

「全文検索」とは

検索対象となる1つ以上のテキスト全文を対象として、指定された検索文字列で検索を行い、検索文字列が含まれる文書を表示する機能/システムです。

あらかじめ転置索引というものを作成しておき、検索時に使用して検索を行います。

基本説明

Luceneは、Apache Software FoundationのLuceneプロジェクトで開発されているソフトウェアです。100%PureJavaで実装されています。

インデックスを作成するタイプの全文検索エンジンで、あらかじめ蓄積した大量のドキュメントデータから、指定したキーワードを探し出します。

1台のマシンで1000万ドキュメント程度のボリュームを高速検索できます。「エンタープライズレベル検索」に適しています。

Javaのクラスライブラリとしてリリースされており、Javaのプログラムから、単純なAPIで呼び出されることで、強力な索引機能と検索機能を提供します。

経緯

2007年1月、Apacheのトップレベルプロジェクトになりました。

ポイント

・1時間に150GB以上のインデックススループット/ランク付け処理を行える高機能
・検索および索引付けを同時に実行可能
・ドキュメント登録にはXML、JSONなどを使用
・強力で正確かつ効率的な検索アルゴリズム
・多数の強力なクエリタイプをサポート
・クエリ式の構文解析
・誤字補完機能
・特定のクエリと一致する文書ごとにスコアを計算
・スコアを基準として関連性の高い順にランクを付けて文書を返す
・各種サーブレットコンテナ上で動作可能
・RESTライクAPI
・ファイルベースロック機構
・レプリケーション機能
・カスタムソート、フィルタリング
・検索結果のハイライト機能

主な特徴

多彩な検索機能

単語、連結複数単語、ワイルドカード、正規表現、あいまい、範囲、フィルタリングなどの検索機能を提供します。さらに、「AND」「OR」「NOT」「()」の演算子を使って組み合わせた検索式で高速検索できます。

「ランキング」と「ソート」のカスタマイズ

「ランキング」と「ソート」へのカスタマイズ自由度が非常に高いという特徴があります。

オープン性

全文検索の機能をJavaのAPIで提供するため、さまざまなカスタマイズが可能です。関連ツール/アプリケーションなどが世界中で開発され、ソースコードが公開されています。

関連製品

Luceneベースの関連製品です。
・NoSQL検索プラットフォーム「Apache Hadoop
・エンタープライズ向け検索プラットフォーム「Apache Solr
・クローラ「Apache Nutch」
・リアルタイム検索システム「Elasticsearch

デバッグ用ツール

デバッグ用ツール「Luke」は、Luceneの転置索引をブラウズするGUI形式の「インデックスブラウザ」です。

日本語解析

各種用意されている形態素解析プログラムを利用することで日本語検索が可能になります。

同様製品(概要情報)

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品:「Elasticsearch」「Groonga」「Fess」など。

導入事例

Luceneは、「Wikipedia」「LinkedIn」などのWeb サイトで使用されています。

また、「Eclipse IDE」「IBM」「AOL」「Hewlett-Packard」などの企業にも検索機能を提供しています。

ライセンス情報

Apache Luceneのライセンスは、「Apache License 2.0」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。

ダウンロード

ダウンロードページ

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

この記事のタグ一覧

おすすめの記事

【デジタル寺田の3分用語解説】 「 OTセキュリティ 」とは?〜ITセキュリティ との違い〜🔑

デジタル寺田の3分用語解説

2024.12.02

【デジタル寺田の3分用語解説】 「 OTセキュリティ 」とは?〜ITセキュリティ との違い〜🔑

「 OTセキュリティ 」は、工場や発電所の産業用制御システムを守るためのセキュリティで、安全性が重視されます。ITシステムとの接続増加により脅威が高まり、「運用停止の難しさ」や「管理部門間の連携不足」が課題です。サイバー攻撃の増加に伴い、対策の強化が急務となっています。

【デジタル寺田の3分用語解説】 「 103万の壁 」(年収の壁)とは?🧱

デジタル寺田の3分用語解説

2024.12.02

【デジタル寺田の3分用語解説】 「 103万の壁 」(年収の壁)とは?🧱

「 103万の壁 」とは、給与収入が年間103万円を超えると、所得税が課税される「年収ライン」を指します。このラインを超えると手取り収入が減少するため、多くの人が働き方を調整します。住民税や扶養控除外れも家計負担に影響します。他にも、厚生年金などの負担が発生する「壁」が存在し、制度の見直しが議論されています。

【デジタル寺田の3分用語解説】 ガートナーが発表した「2025年の戦略的テクノロジの トップ トレンド 」とは?🌟

デジタル寺田の3分用語解説

2024.12.02

【デジタル寺田の3分用語解説】 ガートナーが発表した「2025年の戦略的テクノロジの トップ トレンド 」とは?🌟

ガートナーが発表した「2025年の戦略的テクノロジー トレンド 」には、自律的意思決定を行う「エージェント型AI」「AIガバナンス・プラットフォーム」「偽情報拡散防止技術」「次世代コンピューティング技術」が含まれます。これらは仕事や生活に深く影響し、企業競争力向上のカギとなると予測されています。