連休前に非常に驚かされたニュースです。テキスト情報を持ったPDF(WordなどからPDF化したもの)はこれまでも検索結果に反映されていましたが、さらにスキャナーなどを使ってスキャンした画像すら検索するというのですから、「これはすごい」の一言に尽きます。
「Googleはスキャナーでスキャンした文書も検索対象に」 - TechCrunch
スキャンしたPDFのタイトルや埋め込まれたメタデータではなく、画像の文字をテキスト情報に変換し、そのテキストを検索するとのことですが、これはTechCrunchでも言及されているように、紙であってもスキャンして画像化され、Web上に上がってさえいればデジタルのテキスト情報となんら変わらない存在になる、ということです。文字認識の精度がどれほどのものかはまだ分かりませんが、実際にサービスとして開始した以上、かなりのものなのではないでしょうか。
しかし、ほとんどの文字がブラウザからの検索で閲覧できてしまうというまるでSFのようなことが実現してしまうと、一体何がどうなるのか想像もつきません。個人的には研究機関などで保管されている古文書が閲覧できるようになると、面白そうだと思うのですが。