主な機能は以下の通りです。
*1: 半角シンボル(ギリシャ文字などASCII以外の文字は正しくカウントできない場合があります)。詳しくは未解決問題を参照。 *2: xdoc2txt.ocxは、本ソフトウェアパッケージには同梱されていません。
\w 単語」の構成文字 (英数字と "_") にマッチ \W 単語の構成文字以外にマッチ \s 空白文字にマッチ \S 空白文字以外にマッチ \d 数字にマッチ \D 数字以外にマッチ \b 単語の境界にマッチ \B 単語の境界以外にマッチ \A 文字列の最初にのみマッチ \Z 文字列の最後にのみマッチ \t タブ \n 改行 \r 復帰 \f 改ページ \a アラーム (ベル) \e エスケープ \033 8 進数で表した文字 \x1b 16 進数で表した文字 \c[ コントロール文字 直前の文字の数量子: * 0 回以上にマッチ + 1 回以上にマッチ ? 1 回または 0 回にマッチ {n} ちょうど n 回にマッチ {n,} n 回以上にマッチ {n,m} n 回以上 m 回以下にマッチ
xdoc2txt.ocxはhishidaさんが作成されPDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出できるフリーウェアのActiveXコントロールです。xdoc2txt.ocxをインストールすることにより標準で検索できるMS-Word97-2003形式、Windowsテキスト、HTML、PDF(1.2-1.4)、リッチテキストに加え、以下の形式のファイルが検索できるようになります。
.docx | Microsoft WORD 2007(OOXML) |
.xlsx | Microsoft Excel 2007(OOXML) |
.pptx | Microsoft PowerPoint 2007(OOXML) |
.xls | Microsoft Excel ver5.0/95/97/2000/XP/2003 |
.ppt | Microsoft PowerPoint 97/2000/XP/2003 |
.sxw/.sxc/.sxi/.sxd | OpenOffice.org |
.odt/.ods/.odp/.odg | Open Document |
.jaw/jtw | 一太郎 ver5 |
.jbw/juw | 一太郎 ver6 |
.jfw/jvw | 一太郎 ver7 |
.jtd/jtt | 一太郎 ver8/9/10/11/12 |
.oas/oa2/oa3 | OASYS/Win |
.bun | 新松/松5/松6 |
.wj2/wj3/wk3/wk4/123 | Lotus 123 |
.wri | Windows3.1 Write |
.mht | Webアーカイブ |
.html | HTML |
.eml | OutlookExpressのエクスポート形式 |
xdoc2txt.ocxは、本ソフトウェアパッケージには同梱されていませんので、下記URLからご自身でダウンロードし、説明にしたがってインストールしてください。
xdoc2txtのHP:http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html
また、xdoc2txtという素晴らしいライブラリをフリーで公開されているhishida氏に敬意を表します。