モダンなサイトでは、JavaScriptで動的に生成されるコンテンツも増えています。動的に生成されるHTMLページでは、通常のクロールで取得しても、まだコンテンツが生成されていないため、そのようなサイトは検索対象にすることができません。動的に生成されるページを検索対象にするためには、アクセスするページにブラウザと同様な処理をして、コンテンツが生成された後の状態を検索対象として、インデクシングする必要があります。

Fessでは、この課題を解決するために、Playwrightを利用したクロール方法をFess 14.5から提供しています。今回は、この機能を利用したクロール方法を紹介します。

Playwrightとは

Playwrightは、ChromiumやFirefoxなどのブラウザをAPIで操作して、Webアプリケーションのテスト自動化を実現するライブラリです。 Playwrightでは、ヘッドレスでブラウザを起動して、さまざまな操作することができます。

Fessは、この機能をクロールで利用することで、動的に生成されるページでも、ブラウザがレンダリングした状態の内容を検索対象とすることができます。

Playwright環境の構築

この記事は
Members+会員の方のみ御覧いただけます

ログイン/無料会員登録

会員サービスの詳細はこちら