2011-06-28

デジクリ連載09 ■テキストデータを準備するというカベ

■電子書籍に前向きになろうと考える出版社[09]テキストデータを準備するというカベ/沢辺 均

電子書籍をどうつくるのか、自分のアタマのためにも、あらためて整理してみます。

まず、電子書籍のデータをどういう内容するのかってことから。
・画像で見せる
・画像でみせるけどテキストデータを持っている
・タグテキストをつかってビュアーで見せる
という三つの見せ方から整理してみることにしました。

これ以外には、ボーンデジタルの電子書籍があります。
今後、デジタルならではの「書籍」のありようがさまざま構想されていく(かも)のだろうけど、それならつくり方は自由なので、紙の本から電子書籍へと移行しつつある現在のつくり方から、一端ハズしておきます。
もちろん、みなさんご存知のように、はじめからデジタルでつくるワケだから、テキスト以外にも画像も動画も音も、3Gとかいろんなデジタル技術が使えるでしょう。そうしたことに関心がある方ならすでにどんどん取組んでるでしょうから、そのうち定番がうまれるかもしれません。
村上龍さんの電子書籍には、音楽や、動画、それから過去の手書き原稿という画像などが使われているそうですから、それも「将来」のボーンデジタルの電子書籍に入るのだと思います。

さて、画像と、画像+テキストと、タグテキストと整理するのは、テキストデータをどうやって得るのか?ということが、現在の電子書籍が直面しているもっとも大きな課題だと思っているからです。

もちろん、携帯小説のようにもとからデジタルデータで「完成」されているなら、いかようにもできるのです。
問題は、完成されたテキストデータがきちん保存できていないという状況にあって、電子書籍を進めるうえでの困難があるのです。

では、テキストをどのように準備するのか?
選択肢は三つでしょう。
・紙の印刷のためにつくった校了データから書き出す
・スキャンした画像からOCRで読み取る
・テキストなし

現在の出版現場を眺めればこのうちの、始めの「・紙の印刷のためにつくった校了データから書き出す」が当然イチバンいい。
だけれども、これは現在以降つくる本には適用できても、既刊本にはなかなか適用できないと思っています。
MACOS 9時代につくったものは、例えデータがあったとしても、今の環境で開くのはむずかしい。
難しいというのは手間がかかり、それはコストの増大になっちゃんでスモンね。

だから基本的な整理としては、
・既刊本→・スキャンした画像からOCRで読み取る→誌面をみるのは画像、検索用にテキストもついてる
・これからだす新刊→・紙の印刷のためにつくった校了データから書き出す→誌面も、検索もテキスト、だからタグテキスト
という流れだと思うのです。

もちろん例外はあります。
既刊本のデータが存在していれば、そこからテキストを準備できる可能性がある。
逆に、新刊からタグテキストにするには、それはそれで手間とコストがかかるわけだから、組版ソフトから書き出した画像(PDF)にすることも選択肢ではある。この場合はPDFに貼付けたテキストはほぼ間違えないものを利用できる。

ということで、ボクはこのデジクリで書かせてもらった「[04]イッキに数10万の既刊本をPDFにして販売したらいいのに」に書いたように、既刊本はスキャン+OCR(校正はしない)、新刊はタグテキスト、と思っているのです。

で、この先に、
・著作権処理と著作権使用料の著者への配分のルールと仕組み
・出版社がこうしたことに乗るためにはどんな条件が必要か
・図書館にこうした電子書籍を利用してもらうためのルール
・紙の本のデータをめぐって準備しておかなければならないこと
などということが構想されなけりゃ進まない、と思ってます。

このあたりは、そのうちまた書きたいなと思っています。

◇TIBF(東京国際ブックフェア)でお会いしましょう。
リードという主催会社は、社長がビジネスフェアはこうしろああしろって偉そうにいうのがキライなんだけど、とりあえずパネラーになってるので、よければお会いしましょう。
○ボイジャーブースイベント「電子出版・成功の法則」
 2011.07.07木 12:00〜12:50。
 ボイジャーの鎌田純子さんと公開おしゃべり。
 電子書籍を広げるために今、何が必要か?みたいな話です。
 http://www.voyager.co.jp/news/info_tibf/tibf2011.html
○本の学校 第4分科会「電子図書館の現状と出版産業のこれから」
 2011.07.09土 14:30〜16:00 東京ビッグサイト会議棟
 コーディネーター●湯浅俊彦(立命館大学)パネリスト●沢辺均(ポット出版)、金子哲弥(図書館流通センター)
 http://www.hon-no-gakkou.com/content/gyoukai/tokyo2011/index.html
◇オイラの06/18ライブの写真をご笑覧あれ
FaceBookファンページ「LIVE勝手にしやがれ」
http://www.facebook.com/kattenishiyagare

【沢辺 均/ポット出版代表】twittreは @sawabekin
< http://www.pot.co.jp/ >(問合せフォームあります)
ポット出版(出版業)とスタジオ・ポット(デザイン/編集制作請負)をやってます。版元ドットコム(書籍データ発信の出版社団体)の一員。
NPOげんきな図書館(公共図書館運営受託)に参加。
おやじバンドでギター(年とってから始めた)。
日本語書籍の全文検索一部表示のジャパニーズ・ブックダムが当面の目標。