電子書籍 関連資料
2010.12.20のポットチャンネル「電子書籍交換フォーマットの現在」のための資料コーナーです。
PDFファイルのほか、その下に、テキストを貼ってあります。
(図版は後ほど挿入します。20101209現在)
USTREAM放送は
●ポットチャンネル・おスペ版 2010年12月20日(月)20時〜22時
電子書籍交換フォーマットの現在
ゲスト:植村八潮 × 楠正憲 × 境真良 × パーソナリティ:沢辺均[見学者募集中]
■01 月刊『印刷雑誌』2010年9月号【特集】:《電子書籍規格の必要性》
編著者・印刷学会出版部 編/発行元・印刷学会出版部/定価・1,470 円(本体 1,400 円+税)
●みんなの電子書籍であるために
−−電子出版の変遷と動向 萩野正昭 PDF(430kb)
●組版データの活用 アドビシステムズ(略)
●日本語表現と求められる標準化
−−電子書籍ファイルフォーマットの標準化と交換フォーマット 植村八潮 PDF(451kb)
●電子書籍ファイルフォーマットの構造
−−記述言語とIEC TC100/TA10 の電子書籍フォーマット 小町祐史PDF(373kb)
●統一中間フォーマットの要件 齋鹿尚史 PDF(373kb)
──────────────────────────────
●みんなの電子出版であるために—電子出版の変遷と動向
萩野 正昭(HAGINO,Masaaki 株式会社ボイジャー代表取締役社長)
幾多の人たちが電子的な出版の普及に取り組んできた。しかし,その普及は決して容易なものではなかった。ある意味で積み上げては一切をもともなく崩しさる徒労の繰り返しだった。
なぜそうだったのか。考えてみると,電子的な出版が何かに依存する体質をもっていたことがわかってくる。電子的な出版とは,本を閲覧するために常にコンテンツを表示するデバイス(端末)を必要とする。つまりeBook(電子書籍)とは,本の中味(本文)と本のガワ(外枠)とが分離しているものであり,外枠である電子書籍端末を中心とした導入が繰り返されてきた。成り立たせるべき電子的な出版のフォーマットは常に競争の道具となり,これを共有化し統一化する動きへと発展することはなかった。
▼これまでの電子出版の敗因と理由
電子的な出版には,カバーしなければならない4つの領域がある。
1. コンテンツ領域
2. ハードウェア領域
3. デリバリー領域
4. フォーマット(Reader)領域
コンテンツ領域は現在,出版社,新聞社,テレビ局,映画会社など既存メディアが占めている。ハードウェア領域はデバイスを製造する電機メーカーやコンピュータメーカーの独壇場だ。デリバリー領域は日本では携帯電話のキャリアと呼ばれる人たち,本の配送・配信でもっとも力を持つアマゾン,そして最近になってアップルやグーグルが運営しようとしているネット上の仮想店舗であるiBookStore やAndroid Market などがこれにあたる。プレーヤーは既存勢力,新興勢力などまちまちだが,いずれも巨大企業がほとんどだ。残ったフォーマット領域はこれとは様相が違い,比較的小さなベンチャー企業が集中した。小さなベンチャーは大きな会社と提携したり別れたりの離合集散をくりかえし,激しい角逐合戦が展開されたのだ。
そこには,各領域の私利私欲むき出しの覇権意識が充満していた。自分が送り手として市場支配することが第一であり,受け手は購買する以外の何者でもなかった。メディアに参加するどころではなく,ただ口を開けて送り手の供給を飲むことだけが求められた。
当然にもフォーマットは乱立した。それどころか彗星のごとくあらわれて短命に潰えるものも少なくなかった。これに依拠してeBook を買えば,購入した本はフォーマットと一緒に読めなくなる運命とならざるをえない。これが一体「本」と呼べるものなのだろうか。電子的な出版フォーマットに関わったすべての関係者は,この事実の反省なしに再び同じ口を開くべきではない。
日本におけるさまざまな電子書籍端末の導入と失敗について明らかにする作業は真剣に行われたとは思えない。事業者は儲からなければ即断即決,新たな進路を取るのがビジネスというものだとまことしやかに開き直る。電子的な出版に心血を注ぐならば一度や二度の失敗から立ち直るために本質を見極める努力があっていいはずだった。
▼国境を越えた流通と言語の壁
電子的な出版は北米を中心に激しい展開が起こってきた。そして何度目かの注目がまた,われわれにやってきた。
グーグル訴訟の和解問題でも明らかになったように,世界の本はすべからくデジタル化される方向に動いている。いわゆる「全書籍電子化計画」だ。また電子化された本を閲覧するためにフォーマットの統一へと世界は動いてきた。ePUB はeBookの世界標準フォーマットとして,マルチ言語対応をカバーしようとしている。こうした世界の動きと私たち日本での活動をどう結びつけていけばいいのだろうか。
インターネットの着実な普及によって,もっとも縁遠かった流通の基盤を私たちは手元に引きつけることができるようになった。デジタル化された出版コンテンツは,流通という次元ではもはや国境の壁を越え,世界を翔けることが可能となっている。アマゾンのKindle を買った人は,そのデバイスを購入したというだけで,次の瞬間に本を購入できた。携帯電話会社との面倒な契約もいらず,複雑な手順もいらず,欲しい作品(2010年夏現在,アマゾン・ジャパンでの販売は行われていない)を本棚から選んで注文すれば,数十秒でその本はあなたのKindle へ届けられる。国際電話のデータ通信を使い,米国のサーバから本は飛んできたのだ。つまり流通は世界をカバーする段階に突き進んでいる。
問題は言語だろう。言語の壁はいつか越えられるものだろうが,現状はまだ強固にそそり立っている。言語とは習慣や文化そのものだ。
たとえば日本語の本を考えてみよう。文芸書はおもに縦書きだ。そこには日本独特の本の表現としての長い伝統があり,組版の原則ルールを形成してきたのだ。長い印刷の歴史がこれを支えてきたといえる。
世界の標準に日本語の独特な表現方法を組み込ませていくことは,簡単なことではない。それなりの時間を要する。しかし,その間にも世界は動きを止めることはない。動きながら考えていくことを余儀なくされる。
▼動き出す日本語書籍の電子化
日本国内での書籍の電子化の動きも活発になっている。2010 年1 月より施行された「改正著作権法」によって国会図書館は,著作権保護期間の有無にかかわらず所蔵するすべての資料をデジタル化する権利を認められた。予算措置を背景にこの作業は進められていくことになるだろう。
いくつかの制限を前提に,図書館のeBook の閲覧,貸出は進められていくと思う。そうなるときに,日本語の電子的な出版フォーマットはどのようになっていくのか。そしてまた,そのとき世界の標準との関係はどうなっていくのか。これらの問題をつないでいく活動を誰がいつどのようにやっていくのか。
▼日本語のデジタル化と世界標準
文部科学省,経済産業省,総務省の三省は「デジタル・ネットワーク社会における出版物の利活用の推進に関する懇談会」を開催し,この分野に関わる日本の産業界,学識経験者を招き討論をしてきた。この場では実にさまざまな課題が話し合われたわけだが,特筆すべきこととして,日本語におけるデジタル化に際しての「交換ファイルの標準化」という方針が打ち出されている。
これには,政府が後押しして業界が日本独自の閉ざされたフォーマットを仕立てようとしているかのように思った方たちがいたようだ。とかく大掛かりな“統一論議” には,裏の事情が云々される面が多々あるものだ。しかし,ここでの「交換ファイルの標準化」とは,そんな狭い考え方ではない。とにかく限られた市場の中で自分の果実を確保するほかなかった時代を経て,私たちは確実に次なるもっと遠く,そしてもっと広い電子的な出版の世界を創り上げるときに遭遇しているのだ。それぞれが勝手にあみだしてきた方法や決めごとを洗い出し,今までの経験を未来へ生かしていく日本語デジタル化基準のガイドラインをオープンに示す必要がある。それを世界の動向と合わせつつ,動きながら,走りの方向性を見極めて,世界標準との擦り合わせをしていかなければならない。
持てるものから我が利を確保することを乗り越えて,持てるものを差し出して人々の利とするための活動の場にようやく私たちは立つことができた。おそらく初めてといっていいことだろう。
▼障害を乗り越えるための標準化
ファイルフォーマットのオープン化は“橋” なのだと思う。もちろんそれは象徴だ。
人は自分の足で,自由に橋を渡り行き来する。行きたいときに何度でも。私たちの世界は決して陸続きばかりではない。断崖や多くの壁に遮られた障害が存在しているのだ。海や山という地理的な隔絶,言語というコミュニケーションの差異,そして国境という人為的,政治的,経済的な区分。それらをつなぐ橋を架けていこう。
空気や水のごとく,生きていく上で人が対価を要求されずに使用できる電子的な出版の基盤を確立させていくために。出版における多くのものの連携できる世界を確立していくために。
──────────────────────────────
●日本語表現と求められる標準化−−電子書籍ファイルフォーマットの標準化と交換フォーマット
植村八潮(UEMURA,Yashio 東京電機大学出版局 局長)
▼標準化の背景
日本語書籍における組版規則は,日本語表現と出版文化形成に大きな役割を果たしている。欧米の書籍と比較すればわかるように,縦組み,ルビなどの日本語特有の組版規則,多数の文字,さらに多様なフォントなど,いくつもの特徴を有している。その結果,日本語の電子書籍の制作においては,手間とコストがかかる傾向にある。
一方で,「電子書籍元年」と呼ばれる熱狂的な電子書籍ブームの到来である。先頃開催された東京国際ブックフェア(東京ビックサイト,7 月7〜 10 日)では,過去最高の来場者となり,中でも電子出版関連のコーナーに多くの見学者が押し寄せることとなった。
日本での電子書籍市場は,574 億円(インプレスR&D「電子書籍ビジネス調査報告書2010」)となり,出版市場(1 兆9356 億円)に対して3%程度と十分な市場を形成するに至った。2010年後半には,日本語対応電子書籍端末の販売が予想されており,さらに成長が期待されている。
このような状況で,出版界や印刷業界は,電子書籍コンテンツの制作と流通対応が急務となっている。そのためには電子書籍コンテンツの生産性を向上し,さらに制作した電子書籍を多種多様なプラットフォーム・端末において利用し,提供できる環境作りを行う必要がある。日本語電子書籍ファイルフォーマットの標準化が,従来から求められてきた理由である。
以上のような背景を受けて,総務省,文部科学省,経済産業省による「デジタル・ネットワーク社会における出版物の利活用の推進に関する懇談会」(以下,三省デジ懇)が設立され,喫緊の課題やいくつかの論点整理を行っている。このほど,報告書を公表し,いくつかの提言を行った※1。
※1:2010年6月28日報告書公表,http://www.soumu.go.jp/main_content/000072064.pdf
この中でも,とくに電子書籍の中間(交換)フォーマットの統一規格を検討する「電子出版日本語フォーマット統一規格会議」の設置が注目されることとなった。筆者は,三省デジ懇の傘下に設けられた「技術に関するワーキングチーム」の構成員として報告書案の作成に参加し,ファイルフォーマット標準化の重要性を主張した。
報告書の中では,
日本語表現に実績のあるファイルフォーマットである「XMDF」(シャープ)と「ドットブック」(ボイジャー)との協調により,出版物のつくり手からの要望にも対応するべく,我が国における中間(交換)フォーマットの統一規格策定に向けた大きな一歩が踏み出された。
としている。
結果的に電子書籍の中間(交換)フォーマットの統一規格が報告書に盛り込めたのは,これまでIEC(国際電気標準化会議)や国内メーカー団体のJEITA(電子情報技術産業協会)において,ファイルフォーマットの国際標準化が進んでいたからである。
もともと民間活動の中で取り組まれてきたことが,改めて政府の懇談会で取り上げられたことになったのである。とはいえ日本が主導して国際標準化が進んでいることについて,政府内や電子書籍関係者に知られていなかったのも事実である。再評価されたことで,実証実験の予算化検討も含め,標準化に対する政府の支援が期待されている。
▼IEC TC100 / TA10
電子書籍に関する国際標準は,IEC TC100 /TA10 が担当しており,現在まで,以下に示す4つの国際標準が発行されている。IEC 62571 を除いて,すべて日本提案である。カッコ内は発行年月。
1)IEC/TS 62229 Ed. 1.0(2006 年7 月)
マルチメディア電子出版及び電子書籍の概念モデルを示した。
2)IEC 62448(2007 年4 月第1 版,2009 年2月第2 版)
中間(交換)フォーマットである。annexA としてソニーのBBeB をベースに標準化し,改訂版でannexB としてシャープのXMDF をベースに標準化した。
3)IEC 62524(2009 年2 月)
配信・閲覧に用いられるリーダーズフォーマット。
4) IEC 62571(2010 年1 月)
米国提案によるデジタルオーディオフォーマット。
また,検討中のプロジェクトは次の通りである。
1)PT 62605
電子辞書フォーマットで,国内電子辞書のデファクト標準に近いディジタルアシスト社のLeXMLとIEC 62448 Annex B (XMDF ベース)のタグを追加し,拡張・改良したものである。2010 年中に国際標準の発行が見込まれている。
2)PT 62665(Texture map for auditorypresentation of printed text contents)
日本でデファクト化しつつある,印刷物用の音声プレゼンテーションのための表示方法を定義したもので,ユーザビリティ,アクセシビリティの点から期待されている。
▼電子書籍ファイルフォーマットの概念
電子書籍を製作するには,大きく分けて2 つの工程がある。1 つはDTP データをもとに電子書籍フォーマットに加工する方法であり,もう1つは印刷物をスキャニングして画像データやPDF 形式とする方法である。前者は,文字中心のコンテンツに多く,後者はDTP 導入以前の書籍や,図表の多い学術専門書,さらに現在でも版下によって入稿されているマンガに多い。
書籍は,冊子体という物理的な構造がほぼ共通であっても,開いて見ればわかるようにレイアウトは多様である。章,節,項という体系的な見出しや,本文,図表の関連など,コンテンツの構造をレイアウト表現に転化しているからである。紙面を構成する要素が多ければ多いだけ,構造は複雑になり,統一したフォーマットで表現することは困難になる。その結果,画像データなどでの電子書籍化が図られることになる。
一方,文芸などの文字中心のコンテンツであれば,組版ルールという壁は残されるものの,ある程度,統一したフォーマットにまとめることができる。市場規模の大きい文芸コンテンツの流通促進を考慮すれば,電子書籍の専用フォーマットであることが求められる。
電子書籍コンテンツが,出版社,コンテンツプロバイダを経由して,エンドユーザ(一般消費者)によって閲覧されるまでには,いくつかの段階がある。そこで,IEC/TS 62229 では,この概念モデルとして図1 に示すようなContents creation/distribution model を定義している。電子書籍フォーマット関連の標準化においては,これを参照して,どの部分のフォーマットに対応するのか,明らかにすることが行われている。中間(交換)フォーマットは, 図1 のData preparer とPublisher の間で用いられるフォーマットで,ここではGeneric format と呼んでいる。図1 では,Author が著作者,Data preparer は出版者,Publisher はコンテンツプロバイダー,Readerは読者およびデバイス(端末)と考えていただきたい。
具体的な例で説明しよう。製作過程では,著者,出版社,製作会社(印刷会社)の間でのデータ交換や,異なるシステム間での変換を保証する必要がある。また本文の文字情報などに加え,ルビや段組,縦中横,脚注といった頁組版情報や画像・音声といったデジタルならではの表現形式の取り扱いを規定していく必要がある。これらの条件に応えるのは,XML のような構造化文書となる。
テキストデータ形式であることからデータ量は大きいが,印刷会社内での利用や,出版社と印刷会社における閉じたネットワーク間でのやりとりであり,市場流通するものではないので問題とはならない。
一方,電子書籍の読書にはケータイからパソコンまで多様な読書端末装置が使われている。画面サイズ,カラー表示,音声や画像処理,入力のインタフェースなどや,処理能力にもかなりの違いがある。そこで流通し,読まれるテキストコンテンツはブログや掲示板などで入手できるテキスト情報やケータイメールなど,必ずしも対価を必要としていないものが多い。これに対し電子書籍のコンテンツは,原則的に情報収集に対価を必要としている。このため電子書籍はコンテンツの管理や著作権管理が必要であり,コンテンツ同士も販売競争が常に行われている。また流通上の制約として,データ量が小さい方が好ましい。さらに流通適性を考慮すると暗号化やDRM(著作権管理システム)情報を含む必要があり,表示ファイルはバイナリーデータ形式となる。
このように制作過程など中間段階でのファイル形式(Generic format)と,読者へ配信して表示するファイル形式(Reader’s format)では,本質的に異なることになる。つまり現実的な標準化として,両者を一つに統一する必要はない。
▼中間フォーマットの統一の目的
現在,ブームとなっている電子書籍は,文芸などの文字中心コンテンツであり,日本語表現に実績のあるファイルフォーマットとして,前述報告書のように「XMDF」(シャープ)と「ドットブック」(ボイジャー)がある。そこで,IEC 62448 の第3 版として,ドットブックとも交換可能な中間(交換)フォーマットの策定を目指すこととした。このような「日本語フォーマット」は日本企業による「ガラパゴス」標準を決めるだけで「世界から孤立するだけだ」という俗耳に入りやすい見方がある。このような誤解が生じている理由の1つとして,制作段階に応じて,いくつかの異なるファイル形式が存在していることが理解されていない点がある。
具体的には,表1 に示したように,HTML のように記述形式(タグ付きテキスト)で書かれた「中間(交換)フォーマット」がある。これを専用端末や携帯電話で閲覧するために実行形式(バイナリーデータ)としてデータ量を小さくした「閲覧フォーマット」。不正な複製を防ぐ目的もあってDRM がかけられた「配信フォーマット」。さらに,電子書籍ファイルを閲覧する「ビューワーソフト」や,「オーサリングツール」と呼ばれる制作するための開発システムも存在する。たとえば「XMDF」と呼ばれるのは,これらのファイル形式や開発システムを総称して呼んでいるものである。
今後とも配信フォーマットは各社,各サービスの競争にゆだねられている。もちろん,見やすい「ビューワーソフト」や使いやすい「オーサリングシステム」も同様である。
各社の競争により多様なファイルフォーマットが存在するのはやむを得ない点でもある。米国などは,コンテンツホルダーではなく,IT 企業の主導によって事実上の標準化(デファクトスタンダード)となる傾向にある。一方で,多様なファイルフォーマットに対応することで電子出版制作の非効率性が生じることや,ファイルフォーマットの違いを通じた電子出版端末・プラットフォームでのコンテンツの囲い込みなどは,避けるべきである。
そこで三省デジ懇の報告書では,「様々なプラットフォーム,端末が採用する多様な閲覧ファイルフォーマットに変換対応が容易に可能となる,中間(交換)フォーマットの確立」が求められているとした。このように交換フォーマットを標準化することで配信フォーマットへの変換にも対応しやすくなるだろう。これにより「ワンコンテンツ・マルチファイル」(1 つの作品に対していくつものファイルを作らなくてはならない状況)から「ワンコンテンツ・ワンファイル・マルチプラットフォーム」の実現を目指すものである。
──────────────────────────────
●電子書籍ファイルフォーマットの構造−−記述言語とIEC TC100/TA10 の電子書籍フォーマット
小町祐史(KOMACHI,Yushi 大阪工業大学情報科学部 教授)
キーワード ファイルフォーマット;記述言語;
スタイル指定;スキーマ言語;HTML;XML
▼記述言語とマーク付け
電子書籍に限らず,文書などの構造をもつデータの交換フォーマットには,ASN.1,SGML,XML などの記述言語が用いられてきた。
記述言語は文書構造記述などの特定目的のデータの記述とアクセスを指示する言語であり,指示要素の組合せによってコンピュータの多様な動作を規定するプログラム言語と比較するとき,データがテキスト形式で扱われ,制御変数をもたないことが多いなどの特徴をもつ。目的によって表1のように分類される。
・マーク付けの一般化
文書処理の電子化は植字機(タイプセッタ)において開始され,印刷指示がタグとして文書データの中に埋め込まれた。タグは機器に依存していたため,それが埋め込まれた文書データの交換性は極めて限定されていた。
そこで文書中に印刷指示を書くのではなく,次のように文書を構成する意味的なまとまり(論理的要素)を示すタグを文書データの中に埋め込む(マーク付けする)ようになった。
全会議…
その結果,
◇マーク付けを機器非依存にできる。
◇マーク付けに用いるタグの可読性が高く,しかも印刷の専門技術に関係しない。
◇したがって文書内容の作成者は意味内容の記述に専念できる。
ことになった。
マーク付けはさらに,ある文書クラスに共通する論理的要素とその構造を識別するようなタグ集合へと一般化され,共通マーク付け(genericmarkup)と呼ばれた。要素に関する属性記述をもタグに含めて,多様なアプリケーションに対応できるようにしたマーク付けも行われて,一般化マーク付け(generalized markup)となった。
このようなタグ集合の定義方法を国際的に取り決め,言語として体系付けたものが ISO(国際標準化機構)によって承認され,SGML(StandardGeneralized Markup Language:標準一般化マーク付け言語)として制定された。これを用いれば,いわゆる文書に限定せず,さまざまなタイプのデータ集合(アプリケーション)に対して,一般化マーク付けを定義でき,さらに各種の補助機能によってさらにマーク付けを扱うさいの利便性の向上が図られた。
なお,SGML のいくつかの追加機能は,処理
系の進歩によって不要になり,その後開発された
XML では簡素化が施された。
▼スタイル指定
論理構造(論理的要素とその構造)のマーク付けを施された文書データは,表示メディア上にフォーマット付けされて展開される必要があり,そのため論理的要素をどのようにフォーマット付けするかの指示(スタイル指定)を受ける必要がある。
なお,本稿では“フォーマット” を異なる2 つの意味で用いる。“文書・書籍の交換フォーマット”という文脈におけるフォーマットは,交換対象データを扱う送り手と受け手との間の交換対象データに関する表記方法の取り決めであり,JIS などでは交換様式と書かれることが多い。
もう一方の表示メディア上での“文書データのフォーマット付け” という文脈におけるフォーマットは,文書データを構成する文字列等のまとまりを視覚的に見やすく表示メディア上にマッピングすることである。組版,レイアウト,スタイル付け,ページ展開などが,類似の意味をもつ。
表示機能を大きく異にする装置間での文書交換では,スタイル指定はローカルに設定しなくてはならず,交換の対象は論理的要素とその構造に限定される。しかし,充分なフォーマット付け機能と表示機能をもつ環境では,再編集の可能性を維持したまま交換による版面の一致または最適近似が要求されることが多い。その場合には,文書の論理構造に加えて,論理的要素に対するスタイル指定が交換の対象となる。
CERN(欧州原子核研究機構)における技術文書の交換から始まったHTML は,それが扱う要素型を極端に限定し,それらに対応するスタイル指定をもある程度規定して,SGML 宣言,文書型定義,スタイル指定の交換を不要にすることで,当時の処理系においても,ウェブ環境での軽快なナビゲーション(文書間のたどり)を可能にしてインターネットの普及に貢献した。しかしこの限定された仕様が,とくにフォーマット付けに関する要素型および属性の独自拡張を呼び,交換性が失われることが目立った。World Wide WebConsortium(W3C)は禁欲的なまでにHTMLでのフォーマット付け機能を制限し,充実したフォーマット付けに関するユーザー要求はスタイル指定言語CSS を併用することで充足した。
この戦略によって,SGML の時代から提唱さ
れていた電子化文書,とくにウェブ文書を論理構
造とスタイル指定とに分離して記述することが社
会に定着していった。
▼XML とスキーマ
HTML の大普及の結果,当初のHTML のスコープ(適用範囲)を越えた複雑な文書までを,HTML と同様の簡便さで交換したいという要求が現れた。この要求を満たすため,SGML のサブセットに整形式のコンセプトを導入したXMLが開発された。
SGML においては,共通する論理的要素とその構造を定義するスキーマ言語としてDTD だけが使われていたが,XML の普及と共にXML の構文を使ったスキーマ言語(W3C XML Schema,RELAX NG XML syntax)が利用可能になり,さらに簡素な記述を可能にするRELAX NGcompact syntax がISO/IEC 19757−2 として制定された。図1 〜 3 にそれぞれXML DTD,RELAX NG XML syntax,RELAX NG compactsyntax による論理構造の記述例を,その入れ子構造を図4 に示す。データ型の規定,XML 名前空間なども次々と開発されて,XML はいわゆる文書だけでなく,一般的なデータの構造を記述する言語として,プロトコルの記述などにも広く利用されている。
電子化文書を論理構造とスタイル指定とに分けて記述することは,XML の利用においても同様であり,CSS をさらに拡張してXML の構文で表記したXSL が開発されて,印刷・出版の文化の中で発達してきた多くのフォーマット付け・組版技術の要素(文書スタイルオブジェクト)がサポートされるに至っている。
▼IEC TC100 における電子書籍規格の扱い
電子書籍においては,文書としての論理構造とそのコンテンツ(文字列,画像など)だけでなく,フォーマット付けされたページイメージに対しても著作物としての扱いを受けることが多い。そこで電子書籍モデルを示す前にとくにフォーマット付けを論じる。
・電子書籍におけるフォーマット付け
人の思いは通常,ことばによって表現され,文字列を使って記述されることが多い。人の思いを時間的に固定して,文字列およびその他の補助データで表現したものが文書であり,他の人(または自分自身)にその思いを伝えることを目的とする。
ことばによって表現される思いには,必ずしも明示的ではないこともあり得るが,意味的な区分(論理構造)があり,その構造を適切に示すことによって思いの伝達が明確になる。思いを文字列で記述するとき,その論理構造をなるべくわかりやすく伝達するために,文字列を展開する表示メディア(紙など)の上で文字列を幾つものブロック(見出し,段落,注釈など)にまとめ,ブロックの境界を空白等で明らかにし,さらにブロックの中での文字の並び方,フォントなどで他のブロックと区別するというフォーマット付けが印刷・出版技術とともに発達した。
著者や編集者は彼らの思いを表示メディアの制約の範囲でなるべく適切に表現できるスタイルオブジェクトを用いて文字列を展開し,読者は紙面に展開された文字列のブロックから著者や編集者の思いをより明確に把握する。紙などのハードコピーによる文書交換においては,表示メディアに展開された文字列のブロックという著者や編集者が意図する論理構造のインスタンス(論理構造に基づく実際の値としてのデータ)があるだけであり,表示メディアの制約の変化への柔軟な対応は困難である。
文書が文字コードの列として表示メディアから独立してはじめて,その文字列に対して記述言語などを用いて論理構造の指定が可能になり,電子化された情報として論理構造が交換可能になる。
・電子書籍モデル
文書の論理構造を読者に視覚的に示す技術としてフォーマット付け・組版技術があり,それは前述のとおり表示メディアに依存する。eBook(電子的な書籍)流通系の中では,多様な表示メディアの存在を許容する必要があり,表示メディアに依存しないgeneric format と表示メディアに依存するreader’s format とを用意することが必要である。
そこでIEC 62229(マルチメディア電子出版の概念モデル)が示すTC100 のe−Publishingモデルでは,Data preparer(電子書籍を作成する組織または人。たとえば編集者)とPublisher(電子書籍を発行し,配付する組織または人)との間の交換様式としてgeneric format を規定し,Publisher とReader(読者)との間の交換様式としてreader’s format を規定することを推奨している。generic format においては,論理構造を含むだけでなく,reader’s format への変換に際してのヒント情報としてのスタイル指定を含む必要がある。
reader’s format においては,Reader における表示メディアに依存したスタイル指定が含まれる。そのスタイル指定をフォーマッタ(文章の整形を行うアプリケーション)によって実行した結果をreader’s format とすることも可能である。
Author(著者)とData preparer との間の交換様式としてIEC/TS 62229 のモデルに含めたsubmission format においては,Author がとくに指定することを要求するスタイル指定を含むとともに,Data preparer との間のproofreading(文書校正処理)交換のサポートが望まれる。
・IEC 62448 の基本構造
IEC/TC100(国際電気標準会議のマルチメディアシステム及び機器に関する技術委員会)のe−Publishing モデルに基づくgeneric format として,すでにIEC 62448 が発行されている。これは我が国がTC100 固有の加速化手続きを用いて提案した規格であり,当時のe−Publishing の国際マーケットを考慮すると「統一フォーマットの国際的議論が困難である」との判断に基づき,マーケットを拡大しつつあったBBeB Xylog とXMDF のフォーマットを追認するとともに,極めて簡素なe−Book を考慮したg−core というフォーマットを規定している。g−core においては,vocaburary(要素と属性)のセマンティック(データの意味)の厳密な規定は示されておらず,スタイル指定も行っていない。
なお,最近ではISO とIEC の各種手続きが統一化される方向にあり,そのための検討が続けられているが,IEC/TC100 ではISO やISO/IECJTC1(ISO/IEC 合同技術委員会)とは異なる標準化手続きが認められており,加速化手続きにもTC100 固有の手続きが用意されて,新規分野の国際規格開発の効率化が図られている。
これらの規定の構文には,RELAX NGcompact syntax が用いられ,RELAX NG 記述の先頭部分で図5 のような,g−core,BBeB,XMDF の選択が行われる。今後,国際的に合意されたフォーマットもこの機構を用いて(この選択肢の追加によって)IEC 62448(電子出版の共通フォーマット)の中に導入することが可能である。
──────────────────────────────
●統一中間フォーマットの要件
齋鹿尚史(SAIGA,Hisashi シャープ株式会社システムソリューション事業推進本部電子出版事業推進センターコンテンツシステム開発室 係長)
キーワード フォーマット;HTML;XML;ス
タイル記述;国際標準化;IEC62448
▼統一フォーマットの技術的意義
統一中間(交換)フォーマット(以下,統一フォーマット)を策定することになった経緯については,別稿に詳しく述べられているのでここでは繰り返さないが,その技術的な意義について述べる。
国内のテキスト系コンテンツフォーマットとして, 現状ではボイジャーのドットブック(.book),シャープのXMDF が双璧となっている。ドットブックはHTML を拡張した仕様となっており,一方XMDF(記述フォーマット)はXML 形式で定義されている。それぞれのタグ記述例を図1 に示す。いずれも,「横書き,本文のフォントはOsaka,MS ゴシックの順に優先して使用」「“はじめに” という文字列を中央揃えで表示」という記述を行う例である。
いずれのフォーマットもタグ形式で定義されている点では同じであるが,両者のタグや属性は,機能が一致しているものでも,図1 でわかるように,名称は必ずしも一致していない。したがって,2 つのフォーマットでコンテンツを作成するには,何らかの方法で,それぞれの仕様に基づいて個別にタグ付けを行う必要がある※ 1。統一フォーマットの最大の意義は,このような,フォーマットが分かれているために生じている電子出版制作上の,非効率性を除去することである。
ドットブック,XMDF は,それぞれの開発の経緯や各社の意図によって,機能についても一致しない部分がある。このような機能面での相違の扱いについては後に述べる。
なお,統一フォーマットの仕様は公開が前提となっており,誰もが使用することができるものであることを改めて強調しておきたい。また,統一フォーマットから,閲覧フォーマットや流通フォーマットに変換することは,各社のビジネス領域であり,今回の標準化(統一フォーマット)で規定する範囲には含まれない(図2)。
中間フォーマットを変換する出力先は,特定の流通フォーマットに限られるものではない。コンテンツの権利者の許諾が得られ,変換ツールが整備されているのであれば,中間フォーマットから,いかなるフォーマットに変換して配信することも可能である。このような点については,中間フォーマットの標準化では取り扱わず,各社がビジネスとして取り組むことになる。図2 で,「各社のビジネス領域」と書かれているのはこのような意味である。
▼統一フォーマットの技術的内容
統一フォーマットの仕様については現在未定の部分が多く,方針も含めて,現時点ではあくまで案の段階であることをお断りしておく。
・XML フォーマット
統一フォーマットは,別稿で説明されているような,XML フォーマットとして策定する予定である。XML を扱うツールの充実などから考えて,統一フォーマットをXML で定義するのは技術的に自然なことと考えられる。また,今回の統一フォーマットは国際標準化を視野に入れており,この面からもXML 形式で定義することには異論は少ない。
・既存フォーマットとの関係
統一フォーマットは,その策定の目的から,ドットブックおよびXMDF の機能を包含したものとする必要がある※ 2(図3)。なお,図中の「ミニマムセット」については後に述べる。
機能の包含の仕方については,
1) 共通または類似した機能は,同一のタグや属性にまとめる。
2) 双方のタグをできるだけそのまま使えるようにする。
という,異なる方針が考えられる。後者の方針は,各フォーマットとの互換性は高いという利点がある反面,統一フォーマット自体の仕様は煩雑になりがちであり,前者の特質はその裏返しとなる。このあたりも今後の検討によって決定することになる。
・スタイル記述の分離
統一フォーマットは,個々の端末に縛られるようなものであってはならず,そこから作成されたコンテンツが長期の利用に耐えるものでなくてはならない。すなわち,今後の端末の発展に,交換フォーマットとして利用し続けることができるものである必要がある。
これを保証するためには,
◇端末の仕様(解像度など)に依存した,「見え方」に関する部分(スタイル)
◇端末によって変わらない部分(内容)
を分離するのが良いと考えられる。これにより今後,現在予想されていないような画面を持った端末に遭遇したとしても,最悪でもスタイル記述のみ変更するだけでコンテンツを利用し続けることができる。すなわち,現在の端末仕様に縛られず,長期にコンテンツを利用できることになる(図4)。
スタイル記述と内容を分離する考え方は,たとえばWeb でも導入されてきている。Web では,よく知られているように,HTML でコンテンツが記述されるが,スタイル記述は,スタイルシートと呼ばれる,別のファイルに記述することが可能になっている。
HTML の各タグに対して,どのように表示すべきかを指定するのが,Web におけるスタイルシートの基本的な考え方である。図5 に内容とスタイル記述が混在しているHTML の例と,スタイル記述をスタイルシートに分離した例を示す。
図5 左側の例では,ボールド体であることを示す
これに対して,図5 右側の例では,ボールド体であること,センタリングを行うスタイル記述はfont−weight, text−align として記述され,
ここで例に用いたスタイル記述の仕様はCSS(Cascading Style Sheet) と呼ばれており,HTML のスタイル記述としては主流となっている。図6 は図5 で示した記述に対応する表示の例であり,「スタイルシートとは」という文字列がボールド体で,行の中央に表示されている。
統一フォーマットはHTML ではないが,ここで述べたスタイル記述の考え方を適用することで,各社のフォーマットの仕様も踏まえつつ,スタイル記述と内容との分離を図る。
・ミニマムセット
統一フォーマットの制定にあたっては,日本語を表すのに最低限必要なタグの集まりであるミニマムセットを同時に定義することが考えられている。
統一フォーマットは,すでに日本語コンテンツで実績を持つ2 つのフォーマットを機能的に包含しているため,このような日本語を表すのに最低限必要な機能は当然含まれることになる。したがってミニマムセットの機能は,図3 に示した通り,統一フォーマットの機能のサブセットである。そのタグ名や属性名などの仕様については,既存フォーマットや,IEC62448 との関係も踏まえて,どのような形が望ましいかを検討することになっている。
・仕様策定の動き2010 年10 月に仕様案第一版を策定することを目標としている。また国際標準化も同時に進めることを想定しており,IEC62448 の改訂に合わせ,仕様案をCD(委員会原案)に盛り込むことになる。国際標準化提案にあたっては,必要に応じて,多国語対応のための仕様調整や拡張が行われる。
現状では不確定要素も多いが,2012 年中にこの統一フォーマット仕様が盛り込まれた国際標準を発行することを目標に,国際標準化活動も並行して進める予定である。(図7)
統一フォーマットの策定にあたって,ご協力,ご指導頂いている各位に深く感謝いたします。
※ 1:一方から他方に機械的に変換するソフトウエアも存在するが,完全なものではない。
※ 2:特殊な端末や用途に特化した仕様についてはかならずしもこの限りではない。またそれ以外の機能については今後検討の必要がある
[...] ●「電子書籍 関連資料」を公開しました。(2010.12.09) [...]
[...] ●「電子書籍 関連資料」を公開しました。(2010.12.09) [...]