SQL Server のフルテキスト検索機能を用いて Word や PDF ファイルから日本語を検索する


こんにちは、 SQL Server サポート チームです。

 

本記事では SQL Server のフルテキスト検索機能を用いて Word や PDF ファイルから日本語を検索するための手順を紹介します。

 

SQL Server のフルテキスト検索の詳細については下記ページをご参照ください。

https://learn.microsoft.com/ja-jp/sql/relational-databases/search/full-text-search?view=sql-server-ver16

 

事前準備

1. 現在のフィルターに Word や PDF が対象になっているか確認します。

例えば、PDF を検索対象になっているかを確認するためには、下記クエリを実行します。

EXEC sp_help_fulltext_system_components ‘filter’, ‘.pdf’;

 

上記クエリの実行結果が0件だった場合は、PDF ファイルが検索対象になっていないことを意味します。その場合は、既定で有効になっていないワード ブレーカーおよびフィルターを検索対象に含まれるように下記コマンドを実行します。

— 署名されてないワード ブレーカーおよびフィルターをロードする EXEC sp_fulltext_service @action=’verify_signature’, @value=0; EXEC sp_fulltext_service @action=’load_os_resources’, @value=1; — 言語の一覧を更新 EXEC sp_fulltext_service ‘update_languages’; — フィルター デーモン ホスト プロセス (fdhost.exe) を再起動 EXEC sp_fulltext_service ‘restart_all_fdhosts’;

 

PDF のフィルターが有効になっている場合は、以下のようにドライバーの情報が確認できます。

EXEC sp_help_fulltext_system_components ‘filter’, ‘.pdf’;

 

出力結果例

componenttype 

componentname 

clsid 

fullpath 

version 

manufacturer 

filter