Docugrep Ver.80
Copyright(c) 2024 SATOS601
概略
- DocugrepはPCフォルダにある様々な形式の文書ファイルを全文検索します。
- Microsoft OfficeのWord, EXCEL, PowerPoint, OpenOfficeのWriter, AcrobatのPDFなどに対応しています。
- 正規表現も使え、即時検索できる[フォルダ検索]と、インデックスに基づく高速検索ができる[インデックス検索]の2つのモードで検索できます。
- 検索結果をEXCEL形式で保存できます。
- 検索語の前後の単語の出現パターンの頻度集計もできます。
動作環境
- Windows 111で動作確認
- NET Framewwork4.7.2以上
対応ファイル形式
Word
- Word97-2000文書(*.doc)
- Word文書(*.docx)
EXCEL
- EXCELブック (*.xlsx)
- マクロ有効ブック (*.xlsm)
PowerPoint
- PowerPointプレゼンテーション(*.pptx)
- マクロ有効プレゼンテーション(*.pptm)
Open Office
- OpenOfficeに含まれるWriterのOpenDocumentテキスト (*.odt)
PDF
その他
- リッチテキスト形式(RTF) (*.rtf)
- Webページ (.html|.htm)
- 書式なしテキスト (*.txt)
検索仕様
フォルダ検索
- 検索結果:<5000件
- フォルダサイズ:<1000MB
- ファイルサイズ:<100MB
インデックス検索
- デフォルトで1000件までの検索結果を表示
- オプションで件数上限の変更可
インストール
インストール
- docugrep.zipをダウンロードする
- docugrep.zipを適当なフォルダーに解凍する。
- 解凍したフォルダー内にあるdocugrep.exeをスタートやタスクバーにピン留めする。
補足
アンインストール
- スタートアップなどのピン留めをしていれば削除
- docugrepを解凍先のフォルダごと削除する
使用方法
- duocugrep.exeをダブルクリックで起動

-
[フォルダ検索]か[インデックス検索]のいずれかの検索方式を選択
-
検索方式の特徴は下記の通り
|
フォルダ検索 |
インデックス検索 |
事前処理 |
不要 |
索引作成必要 |
検索速度 |
普通 |
高速 |
特殊な検索 |
正規表現使用可能 |
AND/ORのみ |
検索のヒット率 |
100% |
索引にない語はヒットしない |
文書更新時の対応 |
不要 |
再度索引作成必要 |
A.フォルダ検索
- 画面上部の[フォルダ]ボタンを押す
- 左上のフォルダーツリーで検索対象フォルダを開け、マウスを右クリック
- [追加]メニューを選択する(または右下のリストにドラッグ&ドロップ)
- 左下の検索対象フォルダーリストにフォルダーが追加される
- 複数フォルダを検索対象に含める場合は、1~3を繰り返す
- 画面上のテキストボックスに検索語を入力
- 必要に応じ検索条件を指定する
- [検索]ボタンを押すと検索を開始し、結果を表示
- 検索結果のなかからファイルのリストを選択するとプレビュー画面にテキストが表示される。
- マウスの右ボタンでファイル名をクリックすると以下の操作
- ファイルを開く:関連づけしたアプリで起動
- フォルダを開く:ファイルのあるフォルダを開く
- プロパティ表示・ファイル属性を表示
- [ファイル]→[検索結果の出力]で、検索語の前後の単語、元ファイル名、元フォルダ名をデスクトップにResult.xlsx(EXCEL形式)のファイル名で出力
B.インデックス検索
インデックスの作成(作成前の場合)
- インデックスの作成対象にするファイルの種類の設定をする
- サブフォルダーも含める場合は、 [検索]→「サブフォルダ検索」のチェック入れる
- ファイルの種類を指定したい場合は、[オプション]→[ファイル形式]タブでファイル形式を指定
- メニューから[検索]→[インデックス作成]を選択
- 画面左下のインデックスリスト上でマウスの右ボタンをクリックしてもOK
- [フォルダー選択]のダイアログが開く
- [インデックスを作成しますか]というダイアログでOKを選択し、作成開始
- 数GBを超えるフォルダでは数時間を要することもある
- 中断したい場合は、右上の[中断]ボタンを押す
- インデックスの作成完了すると、インデックス名がリストに追加される
インデックスに基づく検索
- [インデックス検索]のリストから検索したいインデックス名をチェック
- 複数インデックスのチェックが可能
- フォルダ指定のボックスの上でマウスの右ボタンをクリックすると、リストのチェックの全選択、全解除
- 検索語を入力
- 基本は1語または3で示した論理演算子を用いた複合語を入力
- "second best"のように2語以上からなる検索語を入れた場合は、"second AND best"としてAND検索になる
- 必要に応じ検索条件を設定
- 論理演算子を用いた検索:AND, OR, NOTの演算子を用い、複数語を組みあわせた検索
- 類似度による絞りこみ
- 検索語の類似度の閾値を0~1の範囲で0.05単位で指定
- 数値が1に近いほど検索語に近い言葉だけヒット
- 検索ボタンを押す
- 以下はフォルダ検索と同様
インデックスの削除
- 右下のリストからマウスの右ボタンで[削除]または[すべて削除を]選ぶ
単語解析
以下の操作で、検索結果から検索語の前後の単語の出現パターンを頻度集計
- 検索結果がある状態で、メニューから[ファイル]→[単語解析]を選択
- 単語解析のウィンドウが開く
- □■などののボタンを押すことで以下のパターンで単語解析
ボタン |
解析パターン |
■□ |
検索語の後1単語 |
□■- |
検索語の前1単語 |
□■□ |
検索語の前後1単語 |
■□□ |
検索語の後2単語 |
□□■ |
検索語の前2単語 |
オプション
[ファイル形式]タブ
- 検索対象のファイル形式を指定します。対応ファイル形式は前述の通り
- PPT/EXCEL/PDFでページ区切りを表示:PowerPoint, EXCEL,PDFのページ単位の文書にページ区切り([頁])を入れる
- PDF変換にxPDFを利用:チェックをいれるとxPDFを使用して変換
- Bregonig.dllを使用する:Perl 互換の正規表現が使える正規表現ライブラリ bregonig.dllを使用可能
[全般]タブ
- 検索対象フォルダサイズの上限:「サブフォルダ検索」で指定したサイズ以上のフォルダを検索対象から除外
- 検索対象ファイルサイズの上限:「サブフォルダ検索」で指定したサイズ以上のファイルを検索対象から除外
- 除外するファイルパス文字列:「サブフォルダ検索」で指定した文字列を含むフォルダを検索対象から除外(例:Windows;Programとすれば、Windowsフォルダ、Program FilesフォルダおよびProgram Files(x86)フォルダを検索対象から除外)
- [検索履歴削除] 検索語の履歴リストを削除
- [検索結果保存時の最大文字数] 検索結果に保存するテキストの文字数の上限
[インデックス]タブ
- 検索結果の表示:類似度の高いものから最大いくつまで表示するか指定
- テキスト取り込み単位:インデックスに紐づけて表示されるテキストの単位です。256, 512, 1024, 2048文字のいずれかから選択
- 類似度を表示する:検索結果のスコア(類似度)を表示
- 検索結果の閾値:閾値を下げると、検索語そのものだけでなく類似した語も含むデータも表示
[表示]タブ
- 検索結果キーワード文字:検索語の色、マーカー(背景)の色、太字の設定を変更
- 検索結果背景色、プレビュー背景色を変更
未解決課題
- Adobe PDF文書: 一部複雑なファイルは検索できないことがある。xPDFを使用すれば対応できる場合あり。二段組の文章なども正しく読めない。
- Word97-2000文書: テーブルを含む一部の書式はエラーが出る、SymbolやWingdingsなどの文字は正しく検索できない。
ライセンス
以下の条件(MITライセンス 相当)で公開しています。
ソースコード形式かバイナリ形式か、変更するかしないかを問わず、以下の条件を満たす場合に限り、再頒布および使用が許可されます。
- ソースコードを再頒布する場合、上記の著作権表示、本条件一覧、および下記免責条項を含めること。
- バイナリ形式で再頒布する場合、頒布物に付属のドキュメント等の資料に、上記の著作権表示、本条件一覧、および下記免責条項を含めること。
- 書面による特別の許可なしに、本ソフトウェアから派生した製品の宣伝または販売促進に、SATOS601の名前またはコントリビューターの名前を使用してはならない。
本ソフトウェアは、著作権者およびコントリビューターによって「現状のまま」提供されており、明示黙示を問わず、商業的な使用可能性、および特定の目的に対する適合性に関する暗黙の保証も含め、またそれに限定されない、いかなる保証もありません。著作権者もコントリビューターも、事由のいかんを問わず、損害発生の原因いかんを問わず、かつ責任の根拠が契約であるか厳格責任であるか(過失その他の)不法行為であるかを問わず、仮にそのような損害が発生する可能性を知らされていたとしても、本ソフトウェアの使用によって発生した(代替品または代用サービスの調達、使用の喪失、データの喪失、利益の喪失、業務の中断も含め、またそれに限定されない)直接損害、間接損害、偶発的な損害、特別損害、懲罰的損害、または結果損害について、一切責任を負わないものとし
ます。
謝辞
本ソフトは以下のライブラリを使用しています。個々のライブラリのライセンスは、各々の規定に従ってください。
連絡先等
変更履歴
- Ver.0.10 初版完成
- Ver.0.20 リンクエラー修正
- Ver.0.30 メニュー・ボタンの見映えと配置を改善
- Ver.0.40 第一次大改造。(1)インデックス検索追加(2)使用頻度の低い機能を削除(検索結果保存等)、(3)左右分割表示追加,(4)検索結果のキーワードをハイライト
- Ver.0.41 テキストファイルの文字コード判別不備の対応
- Ver.0.50 テキストファイルの文字コード判別不備の再対応。doc形式ファイルの読み込みをC#関数に変更
- Ver.0.60 単語解析機能を追加
- Ver.0.70 インデックス検索で複数フォルダ指定、検索結果内の検索機能追加
- Ver.0.80 第二次大改造。(1)インターフェース・レイアウトの刷新、(2)インデックス作成不備の修正、(3)EXCEL形式結果保存の復活