もう、半年もBLOGを書いてないのかと思うと、自分の怠惰さにも怒髪天を衝くという感じなのだけど、なにぶん自分の事なのでどうにもできない。がふっ。
というようなことはともかくとして、2012/2/4に青空文庫さん主催で「e読書ラボ見学ツアー」として国立情報学研究所と神保町にあるe読書ラボ見学ツアーをやるという告知を見た。( http://www.aozora.gr.jp/soramoyou/soramoyouindex.html#000408 )
興味はあったが、青空文庫自体の工作員などの活動をしているわけではないのでどうかと思っていた。ところが、富田さんから気にせずどうぞといわれたので、見学しにいった。すぐ忘れてしまうし、見聞きした内容は面白かったので、メモとして残すことにした。
個々のサイト自体は、割と以前から公開されているものも多い。これまでに私が聞いたことがあることからしても、知っている人にはあまりにもよく知られたことが多分多いんだろうと思う。ということで、新規性はあまりないのかもしれない。また、私は自然言語処理については素人なので、全然はずして理解してる可能性も高いです。
ようするに、ある程度の興味はあるが、素人が専門家の説明を聞いて、適当に理解した状態だということは、最初に書いておきます。スマセン。
また、すでに大分忘れてしまっていることと、本人の理解力の問題もある。したがって、勘違いや間違いがあるとは思うが、当然私の責任です。
参加者は20名くらいだったと思う。
説明してくれたのは、連想情報学研究開発センターのセンター長である 高野 明彦さん、同じく連想情報学研究開発センターの特任助教である 阿辺川 武さん、特定非営利活動法人 連想出版で Book Townじんぼうの事務局長をしている青木 隆平さんの3名。
流れとしては以下のような感じだった。
- 国立情報学研究所(昔の学情の流れを汲むらしい)で、どういうことをやっているかの座学。
- e読書ラボに実際にいって見学
- 近くの中華料理のお店で懇親会
順番どおりに書いてもしかたないので、頭にのこったことを記載する。
連想検索とは
これまで、連想検索とか新書マップとかそういうサービスは知り合いから聞いたり、Blogやニュースサイトなどで見掛けることがあり、まったくしらない訳ではなかった。
でも自分である程度理解した範囲で勝手に納得していたので、結構勘違いしている個所がおおかったように思う。
一番の間違いは、連想という言葉からそれこそ連想した間違いだった。
私が、連想検索という言葉から想像したのは、以下のようなものである。
ある検索タームを連想検索した場合、関連する(連想する)単語辞書のようなものがバックエンドにあり、それらの辞書より判明する関連語を検索対象として検索が広がっていくようなイメージだった。
こういうシステムの場合、連想用の辞書の質とメンテナンスがとても大変そうで、また辞書により適用可能範囲(向き不向き)が規定されてしまう。なので、どうなのかなぁという気持が結構あった。すいません。
しかし、話を聞いた範囲では、これは勘違いということだ。今でも正しく理解しているかは分らないが、以下のような仕組みになっているようだ。
- 文書を形態素解析して、単語に分割する
- 必要ならば、活用形などを正規化する
- 分解した単語を、一定のアルゴリズムでスコアリングする
- 検索単語と相関性の高い(スコアの高い)単語の組を、他の文書でも検索し、同じような単語の組を持つ文書はより近い文書としてあつかう
1の形態素解析には、ChaSenやMeCabなどの既存のツールを利用しているらしい。
3は文書中の単語の距離みたいなものをスコアリングするのだろうと想像した。
間違っているわけではないですが,正確には文書中での出現頻度と,文書集合全体での出現頻度の逆数(多くの文書で出現している単語のスコアは小さく,少ない文書で出現する単語のスコアは大きく)を元に計算しており,単語同士の組み合わせについては考慮していません.
上記の指摘を阿辺川さんから頂きました。(2012/2/7)
簡単に距離をスコアリングするみたいに書きましたが、書きながらこの相関情報って相当な量になりそうだと思ってました。指摘を聞いてなるほど納得という感じです。
具体的な話は座学ではなかったが、実際の連想検索をするエンジンは GETA というらしい。
連想検索のデモを見ていて感じたのは、その検索の流れだった。UIもよくできていて新鮮。
たとえば 想 – IMAGINE というシステムを見てみる。
まず、最初に古事記というワードで検索してみる。
こちらも阿辺川さんから、単純な単語でも検索できるけれど、連想検索のよさを生かすには、文や文章などのほうがいいとアドバイスを頂きました。
ニュース記事なんかをコピー&ペーストしたりすると楽しいのだとか。
確かに、連想検索の「連想」が生きる為には、単純ワードよりもそっちの方がよさそうです。
例はそのままにしてしまいましたが、色々と試す時はこの辺を心掛けてみると、連想検索らしさがでそうです。(2012/2/7)
一番左にでているのは、検索対象とするDBの一覧。チェックボックスを弄ることで検索対象を変更できる。
また多分優先順位と関係していると思うのだが、上下を移動することも可能。
この辺は、言葉で見るよりも試してみたほうが早いと思う。
そして、2列目以降が、対象のDB内で、検索対象のスコアの高いものから表示されているようだ。
ここから先が連想検索の面白い所だと思う。
自分で興味がある、関連があると思う検索結果リストに対してチェックボックスをチェックすると、「詳細へ」というボタンが「IMAGINE」と変化する。
IMAGINEを押すと、その文書を検索対象として加えてあたらしい検索をかけてくれるのだ。
Googleのような検索サイトだと、検索結果をみて絞りこみたい場合、自分で追加する検索単語を決めて、次の絞りこみ検索を行う。
それに対して連想検索では、連想検索エンジンがあげてきた検索候補をチェックすることで、検索の絞り込みを行う。
もうすこし内部の動きが分りやすい例が、 GETAssoc のサイトで見れる。
この 動作デモ のページへいって欲しい。
細かい設定は、私も今はワカリマセン。
TARGETで、検索対象を設定できます。デフォルトはWikipediaになってる。
ここで、Freetextの所に調べたい単語を入れて、Searchを選ぶと、検索結果としてスコアの高い関連用語が表示される。
添付の画像だと「快楽殺人」で検索している。
単語のリストが下にふたつ表示されているが、左側は「快楽殺人」に対してスコアが高い単語だろう。
右は、実際に弄るとわかるが、カーソルを左のリストに合せると変化する。
画像では、「快楽殺人」を第一検索対象、カーソルを合せることで第二検索対象に「猟奇殺人」を指定し、そのふたつの単語の組合せでスコアの高いものが右側に表示されているのだと思う。
数字はスコアだろう。スコアリングのアルゴリズムも選択できるようだ。
あんまり理解していないので、間違ったことを書いている可能性も高い。しかし、こういう単語同士の組み合わせを「連想」ということで計算し、単語の組み合わせが似た文書を、より関連性の高い文書としているようだ。
これは、単語を自分で選ぶ必要がある明示的な検索とは違う利点があると思う。自分で単語を選択できなくても、連想検索エンジンが提示する候補を選ぶことで、自分の感覚に近い検索の絞りこみができる。
どちらがいいということではないが、興味深いと思った。
どちらかというと、検索という行為に慣れていない場合や、検索する対象に対する知識があまりない時、こういう方法の方が向いているのかもしれないと漠然と感じた。関連知識がなければ、絞り込みに使う適切な単語を選ぶのは難しいからだ。
今もいるのかもしれないがかつてサーチャーという職種があったような気がする。いろんな専門DBへのアクセスアカウントを持ち、要望に応じて専門DBを検索して、情報を提供するような職種だったように思う。職種といっていいのか分らないが。
専門DBを検索(操作)するのが難しいとか、アカウントが高いとかいうのはあったと思う。しかし、専門的な分野で適切な検索タームを選ぶのは、それ自体がかなり高度な技能だと思う。今はGoogleなどで検索慣れしている人もいるが、昔は検索毎に課金されたりしてたし、適切なワードを選んで、最短の検索回数で、目的の情報を探し出すというのは割と大変な作業だったように記憶している。
特に、IMAGINEなどの 検索 > 結果表示 > 追加のチェック > 条件を追加して検索結果表示 の流れは、UIの組み方とあいまって、Googleなどの検索とは違う快感があるような気がした。
なお、質疑の中で、青空文庫がDBとして用意されていないが、いったい何件くらいならDBとして用意する価値が生じると思うかという質問が富田さんからでていた。それに対して、高野さんが、件数的には問題ないが、フィクションの場合、連想検索に向くかどうかというところで、躊躇があるといような解答をしていたと思う。
確かに、ノンフィクションと違い、フィクションの場合、田中花子(例えば登場人物名の例)というような単語の連想検索をしても有効かどうかというと微妙かもしれない。これは、連想検索に限らず普通の検索でも同じだ。研究者なら違うかもしれないが、普通の人がフィクションで検索する必要性は、ノンフィクションとくらべたら低いだろうな、とは以前から感じていた。
個人的には、医学辞典があるように、専門知識のDBがあり、色々選択できると有効だと感じた。
多分新書マップは、人間が一定の判断でテーマと関連のあるものを選んであるのだと思う。ああいう形で、専門の分野で単語と関連のある情報や本、サイトなどの二次資料へのリンクがDBとして用意されていくと、便利かもしれない。これはまた後で触れる予定。
あと、デモを見ている間、いったい検索対象の文書(テキスト)はなんなのだろうというのが気になっていた。
DBとしてブログなどが含まれていたが、これはブログの本文のインデックスを作ればいいので分る。しかし、新書マップみたいなものは、本文を検索しているのかどうか。気になっていたのだ。どうやってテキストを入手しているのかと。
質問してみたところ、目次(と概説?)等を対象にしているということだった。それらをどこで入手しているのか気になったが、それは購入しているとのこと。そういう書誌情報と目次などを年契約で販売している事業者があり、そこから購入して利用しているとのことだった。
もちろん、本文がリーズナブルに調達できるのなら、利用したいだろう。そういうことはちらっと言っていた。オフレコなんだろうから書けないが、そういうことに向けて、色々種は蒔いているようだった。
e読書ラボ
e読書ラボというものができたのはニュースサイトなどでの報道などで知っていた。
どちらかというと報道から受けた印象は、本の街、神保町に、いろんな電子書籍端末がおかれて、試したり相談ができる場所ができたというものだった。
それは、間違いではない。実際にいってみたが、複数の読書端末がおかれていた。今回は20人近くの人が同時に押し掛けたので相当混雑してしまったが、実際はきっとゆっくり相談できる場所なんだろう。
しかし、座学他で、それだけには留まらない、未来の読書環境を考えるという用途があるということを知った。
当日は、2点デモを見ることができた。これは、今迄しらなかったので大変興味深かった。
以下にデモのあったサービスについて触れる。
青空文庫ダウンロードサービス
e読書ラボに来る人は、割と年齢層の高い人もおおいそうだ。さらに、自宅にインターネットなどないというような人も来るらしい。
そういう人は、どうやったら電子書籍が利用できるのかと聞いて、インターネットが必要といわれたら、家にはないからダメだぁとなってしまうらしい。
そういう人の為に、タッチ操作のできる大型ディスプレイで作品を選んでもらい、そのコンテンツ(PDFとEPUBを選択)をQRコードを表示してダウンロードさせるというようなサービスを開発しているということだった。
スマートフォンやタブレットなど、端末の大まかなディスプレイサイズや文字サイズなどを指定すると、そのフォーマットで書き出してくれる。
QRコードでその場でダウンロードするだけでなく、メモリカードなどに落すことも可能だとのこと。
他のサービスと少し違うのは、複数の本を My選集 として1つのファイルに纏めてくれるということ。
1つのMy選集には10作品まで入れられる。自分で10作品選んでもいいし、いくつか選ぶと、おまかせで残りの作品を選んでもらう事も可能。ここに多分連想検索が利用されているんでしょう。
この My選集 という仕組みがあることで、インターネット経由で利用できたら、便利と思う人はいるだろうなと感じた。ネットがない人だけじゃなくてね。
また、これらの選集をオンデマンド印刷で利用できたら嬉しい人はそこそこいるだろう。
インプレスのEPUB雑誌(OnDeck Monthly)だと思ったが、アマゾンの配送センターにオンデマンド本の印刷機があり、そこから注文がある時に印刷して発送してくれるというサービスをやりはじめたと聞いた。これかな。
アマゾンのシステムは これ かな。
多分、今は版下データを事前に納品しておいて、そこから注文の度に印刷して、配送ルートにのせているのだと思う。
これが、リアルタイムでデータを受けつけ可能になると、 My選集 を、直接紙の本にして配送してくれるようにもできるかもしれない。そうなった時、結構楽しいような気がした。
アマゾンでなくてもプリントオンデマンドをやっている所はあるが、アマゾンは強力な配送システムをもっている。もしかしたら、当日中、遅くても翌日に自宅に届くなんて、実現したら素敵じゃないか。都市部の人は、会社の近くの大型書店でオンデマンド印刷とかもありえるかもしれない。
Flipboard みたいな、BLOGなどをソースにした電子雑誌的なものがでてきている。自分とか、ある程度の選者がセレクションしたテキスト選集が、オンラインでも、プリントオンデマンドでも見れたりする。お金の分配とか課題もあるけれど、一つの可能性としてはおもしろいと思う。
このシステムは現在開発中ということだった。完成したら e読書ラボ で利用可能になるはず。
自動脚注付与システム
まともに写真を取れなかったので、簡単な図と写真を両方出します。
真ん中の本は、Internet ArchiveにあるOpen Libraryから持ってきたThe bird bookということだった。
ここの「ミライの読書環境」の所にもスクリーンショットと記述があります。
このシステムは、現在インターネットには公開されていませんが、 e読書ラボにいけば自由に利用可能とのこと。
もしe読書ラボに行ける距離の人は、実際にe読書ラボに行けば試すことができる。
オリジナルはPDFで、それをOCRにかけて、テキストレイヤを作ってある。そのテキストに対して、ビュワにより自動的にリンクがつくられ、本の両側に表示されている。リンクの元になる個所は、本文上の色が変ったテキストの部分。
実際にコンテンツへ埋め込まれた静的なリンクというのはこれまでも沢山存在している。しかし、自動的にリンクが作成されるというのは新鮮だ。リンクするDBによって、参照元になるテキストも変ってくるはず。正直、環境さえそろえばワクワクする世界がひろがりそうで聞いていて妄想が広がってしまった。
実際問題、コンテンツ作成者が付けるリンクとは多分品質に差があるだろうと予想する。しかし、別にどちらかだけしか存在できないというものではない。
このデモでは参照先はWikipedia。設定で、英語のWikipediaだけじゃなく、日本語の同一項目に切り替えることもできる。
このPDFを入れかえることで、他の本で同じようなことをすることも可能で、実際に見せてもらった。PDFは日本語の本でも構わないとのこと。
現在は日本語の本もOCRをかけているということだった。しかし、画像化されたものではないテキストデータが入ったPDFであれば、より正確になる。OCRの精度の問題もあり、このような使い方ならあまりめだたないが、やっぱり文字の誤認識は結構あるということだった。
他の所でも何度か話にでていたが、EPUBでもPDFでも、権利上問題がないDRMがかかっていないコンテンツがあれば、こういうことを問題なくデモできるようになるし、読者が自分で購入した本をこういうシステムに載せて「外部記憶」を参照しながらコンテンツを読んでいくことも可能になる。
今のDRMがかかったコンテンツでは、そのシステム(ビュワなど)がこういう仕組みに直接対応しない限り対応はできない。こういう不便さが、進化のスピードを減速する要因の一つになっていると思う。
個人的には、読者に如何に楽に、色々なビュワで見れるコンテンツを配るかという所に最近の問題意識が集中している。しかし、同じような問題が、こういうところでも課題になっているのを見ると、本当になんとかして欲しいと感じる。
何度か、こういうシステムで、どういう風に読書環境が変るのかというような質問が参加者の方からでていたと思う。
たとえば、自分は技術書を読む時、その言語や分野のリファレンスをDBにしたサービスとリンクさせてこういうビュワで本を読んでみたい。欄外に、関数や構文、フレームワークのリファレンスが自動的に表示される。
また、古事記とかのような、知識がないと素の文章だけでは読みきれない古典もある。関連のリファレンスDBと接続した状態で読めば、欄外の読み解く為に必要な知識を参照しながら難しい本を読んでいくことも可能だろう。今は特定領域のリファレンスDBのようなものは、あまりないと思う。したがって、百科辞典や辞書、Wikipediaなどから引くことが当面は多いかもしれない。
しかし、可能性としては、こういう方向性で進化したら、よりよい読書環境が提示されるといえないか。
フィクションでも、例えば指輪物語やシルマリリオンのような作品で、関連する神や人物の歴史やコメントが常時参照可能なら、それはとてもたすかる。すべてのコンテンツでそういう多重な読み方が向くとは思わないが、これは紙の本では実現が容易ではない読み方の進化の一例だと思う。
是非、実際に自分でコンテンツをはめられるようになるといいのだが。
あと、忘れないように記載しておくと、富田さんが「パソコン創世記」でやってみたいと言っていた。著作権者がその気になっているので、是非実現して欲しいところ。
まとめ
如何に自分が何もしらないかということを思いしらされると共に、世の中には楽しそうなことをやってるところは、あちこちにあるんだなと感じた。
そして、こういう進化をする為にも、コンテンツ本体へのアクセスがオープンになってほしいと強く思う。
もちろん、ビュワの事業者がこういう仕組みを組みこめばDRMがあったって実現は可能だ。しかしひとりのプレイヤーで全部をカバーすることなんて、所詮できない。
また、これは連想情報学研究開発センターという1組織が出した1例にすぎない。
もっと別のアプローチもあるだろう。そういったものをすべからくカバーすることは所詮無理なこと。
一つの読書環境の未来像を見せてもらうことができたのは幸いだったと思う。
出不精で人間嫌いということで、あんまり話もできなかったけれども、やっぱり時々は人界に降りないと駄目かなと少しだけ思ったりして。
まあ、私が考えることは、誰でも思いつくような事なんだろうとは思うけれどね。
こういう機会を提供して頂いた、青空文庫関係者の皆様、そしてデモをしていただいた連想情報学研究開発センターの関係者の皆様に感謝します。
ありがとうございました。
参考ページ