学術情報サービスとオープンデータ

学術情報サービスとオープンデータ-世界の潮流について・実践に必要なこと-

日時:2013年10月30日(水)15:30-17:00
場所:第6会場
主催:国立情報学研究所
講師:
 加藤文彦(情報・システム研究機構)
 生貝直人(国立情報学研究所) 
 大向一輝(国立情報学研究所)

概要: フォーラム詳細

フォーラムの構成

(以下敬称略)  

講演
(1) 加藤文彦(情報・システム研究機構)「オープンデータの技術」
(2) 生貝直人(国立情報学研究所)「オープンデータのライセンス」
(3) 大向一輝(国立情報学研究所コンテンツシステム開発室長/コンテンツ科学系准教授)「NIIの取り組み」

その他の記録

挨拶(司会:大向一輝)

  • オープンデータとは:ウェブ上で再利用性の高いデータを公開すること
  • どうしてこれだけオープンデータという言葉が図書館コミュニティ等でよく出てくるのか?なにが難しいのか?
    • 再利用性の高いというところにポイントがある。これはそう簡単ではない。だからこそどうすればいいのかと聞かれる。
  • 再利用性を掘り下げるとこういうものもある。
    • 技術から見た再利用性
    • 制度から見た再利用性
  • 再利用性を確保するということは意外と難しく、オープンデータの実現には頭を使わなければならない。
  • オープンデータの技術面:加藤さん
  • オープンデータの制度面:生貝さん
    • という割り振りで進めていく。

加藤文彦「オープンデータとその技術」

なぜオープンデータにするのか?

  • アメリカで行政が持っているデータをオープンデータにするような動きが広まっている
  • 公開者のメリット:透明性を高める、距離を近づけることで協働、活性化、効率化、価値向上
  • 利用者側のメリット:利便性、検証、協働、利活用、ビジネス(アプリケーション作成とか)

オープンデータとは?

  • OpenDefinitionにて定義される
  • 自由な利用・再利用・再配布とは?
    • そもそもどういうデータがあるのかを知ることができなければならない
    • 発見できる、アクセスできる、閲覧、印刷、コピー、変更、共有、アプリで使える、リンクできる
  • そもそもの前提としてまずWebにあるということが大事
    • 例えば貸出カードではなくOPACで書誌を載せることで明らかに利用者の利便性は向上している
    • カタログデータのカタログづくりというのは大事
  • さまざまな活動を支援するソフトウェアが必要:データポータルソフトウェア
    • データカタログ、データストア、API提供、データのプラットフォーム的な機能を持つ
    • 例)CKAN:FLOSSのデータポータルソフトウェア。約50の国や地方自治体等で採用されている

オープンデータ実現の手法

  • Machine Readable
  • 番号を機械で処理できるようにバーコードにする、というような処理
    • 機械が処理できる形にするということが重要
    • さらに、標準化された構造化データ形式がよい(CSV,XML,JSON)
  • Linked Open Data
    • 複数のオープンデータを組み合わせて使うのは困難
    • アクセス方法の差異、形式の差異、語彙の差異、事物の同一性
    • LODはそのようなデータを扱う時のベストプラクティス
    • それぞれの主体が異なるデータを組み合わせるための手法がLODとして進められている
  • DBPedia
    • DBPedia Japanise(日本語版):簡単な翻訳などはこれを使って行うことができる
    • Wikipediaを書くとそこからデータが作れる
  • 学術情報のLOD
    • Web NDL Authorities:名称典拠などのデータ化
    • この中にはVIAF(バーチャル名称典拠ファイル)へのリンクがあり、ここからもさらにリンクが貼られている
    • それぞれのデータの主体は違うがリンクを貼ることで同じデータだということを示している
  • SPARQL
    • LODを更に再利用性を高めるには?
    • 標準化されたデータアクセス用Web API
    • SPARQL エンドポイント

まとめ

  • データ公開したい、データ作りたい、データ使いたい
  • ぜひ一緒にオープンデータの世界を盛り上げましょう

生貝直人「オープンデータの制度的側面:著作権とライセンスを中心に」

本職がアメリカの情報に関する法制度の研究者なので、そちらを絡めながら

オープンデータと著作権

  • 基本的にはどんなデータでも活用できるようにしたい
  • 行政が保有する情報にも著作権が存在する
  • 日本の著作権法の中でもちょこちょこ制限規定があるがオープンデータのように自由に使っていくには対応していない
  • アメリカではオープンデータが活発だが、連邦政府の著作物というのは基本的にオープン
  • 日本では「電子行政オープンデータ戦略(2012/7)」の4原則
    • 適切な処理を行わなければ著作権違反になってしまう

PSI(公共セクター情報)の定義

  • 政府や公的機関によって生産されたものや、金的な補助を受けた生産物やサービス
  • 著作権の放棄の手続きを行わなければならない
  • ヨーロッパではPSIは再利用できる法律がある
    • EU加盟国「公共セクター情報の再利用指令」

オープンデータの著作権ライセンス

クリエイティブ・コモンズ・ライセンス

  • 現在の著作権システムはすべての著作物に一律の保護を与えるシステム
    • 著作権者自身が自ら保護のあり方を決定する柔軟な著作権システム
      • BY:著作権者のクレジット表示
      • NC:営利的目的に用いない
      • NO:改変禁止
      • SA:二次的著作物は元の作品と同じ条件で公開する
    • これらが世界的に共通でわかるようにする
    • このうちBYライセンスがオープンデータの主なライセンスになっている
  • 世界中の言語・法制度に対応した三層構造のライセンス記述
    • 【1】コモンズ証:誰もが読んでわかるライセンス条件の要約記述
    • 【2】ライセンス本文:各国の著作権法に適合する形で許諾内容や免責を詳細に記述
    • 【3】メタデータ:RDF構文で記述されたメタデータ
  • 利用事例:CGMウェブサービス
    • Wikipedia、YouTube、Frickrなどデータ共有のウェブサービスで利用されている
  • 教育での利用:オープンコースウェア
  • 公共・政府サービスへの適用が拡大:オーストラリア、ニュー―ジーランドが国全体としてCCライセンスの利用をすすめる
  • 日本のオープンデータでのCC採用:経産省Open Data METI、総務省情報通信白書、千葉県流山市、福井県鯖江市

各国政府の独自ライセンス

  • 英国、フランス、イタリア、ノルウェー等が作成
    • 条件内容はほぼ同じだが、CCPLでは放棄されるEU独自の「データベース権」を放棄しないなど、CCPLでは対応されない独自の条件を含む
    • 参考:「クラウド時代の著作権法」

文化芸術デジタルアーカイブとオープンデータ政策の接近

  • 2013年6月、EU「PSI指令」の大規模改正
    • 同指令のオープンデータ義務対象に、公的な美術館。博物館、図書館、アーカイブ施設を含む
  • 実質的には協力なEuropeana支援措置
    • Europiana;欧州全域の文化施設の所蔵を見られるポータルサイト

パブリック・ドメイン・ツール

  • Europianaに参加する文化施設はデータ交換協定の締結を求められる
  • 協定では収録データの著作権の状態をCCPLやPDマーク等で明示するとともに、メタデータに関してはCC0を適用した完全な権利放棄が求められる
    • CC 0:可能な限り著作権を完全に放棄するマーク(クレジット表示も不要
    • PD(Public Domain):作品の著作権が切れており完全に自由利用可能である事を示すために利用

文化芸術デジタルアーカイブに関わる孤児作品(orphan works)の問題

  • 権利者が見つからずデジタル公開の許諾が取れない作品
  • 英国のミュージアムが保有する1700万点の写真作品のうち、著作権者が判明しているのは10%程度
  • 現状日本の孤児作品対策「裁定制度」:著作権法67条
  • 2012年EU孤児作品指令
    • EU加盟国の公的な文化施設は権利者不明の孤児作品について、所定の権利者探索の努力を行い、
    • その記録を当局に提出することで事前の供託金の提出なしに公開をすることができる

大向一輝「国立情報学研究所のオープンデータに関する取り組み」

さまざまな「オープン」

  • NIIを取り巻くオープンと言う言葉にはいろいろな意味がある
    • オープンアクセス:図書館コミュニティの一員として
    • オープンガバメント:公的機関として
    • オープンデータ:多くのサービスを抱えているデータプロバイダーとして
  • CiNii goes Open@図書館総合展2008
    • 2007年に誰にでも検索結果の書誌を表示できるようにする:ユーザのオープン化
  • コンテンツサービスのウェブAPI提供
    • CiNii Articles KAKEN JAIRO CiNiiVooks:より多くの人に使ってもらえるように
  • 機能のオープン化
    • OpenSearchとRDF:検索結果・書誌データの構造化
    • JSON-LD API:JSONによるLinked Data表現
    • クロスドメイン通信に対応:クライアントサイドでのアプリ開発が可能に
  • CiNiiの書誌データ(RDF/XML)
    • 拡張子を指定することで指定した形式の書誌データを手に入れることができる
    • プログラム等での利用が簡単になった

学術情報サービスとオープンデータ

  • 技術面の達成度は高い
    • 元データが構造化されており、機械的に変換すればよい
    • ウェブAPIの普及
  • ライセンスはこれから
    • 現在はほとんどノータッチ、紳士協定・黙認(?)状態でなるべく信頼に基づいてという形式でやってこれた
    • 国際的にデータが流通していく中でそういう時代はもう終わったと思っているので、ちゃんとした対応をしていく必要がある
    • トラブルには個別対応

オープンデータ実現の5段階

  • ライセンス
  • 再利用可
  • 非独占的
  • 識別子
  • LOD
  • *まだライセンスの段階、上から下まで実現してはじめてオープンデータが実現できる

利用のオープン化

  • オープンライセンスの採用
    • 多様なステイクホルダーとの議論が必要
    • 何を、何の情報を対象とするか?情報に著作性はあるか?どのライセンスを選択するか?
    • 意思決定のプロセス:NIIが単独で決定できることはない

知識のオープン化

  • 外部情報源とのリンク
    • ID、典拠:信頼性・継続性の高いリンク先
    • 国内・国外・他分野との連携
  • SPARQL対応

皆様へのお願い

  • オープンデータを知ってください!
    • 日経オープンデータ情報ポータル
    • NHK NEWS WEB
    • Open Knowledge Foundation Japan
    • Linked Open Data Initiative
  • オープンデータを使ってください!
    • LODチャレンジ:アプリケーション作成コンテスト、データの応募など
    • ハッカソン、アイデアソン、街歩きなど
  • オープンデータ化を応援してください!
    • 多様なステイクホルダーとの議論は必ずやっていかなければならない
    • 他の組織とのネゴシエーション
    • 意思決定者への働きかけ「うちはまだオープンデータやらないんですか?」

データを公開する理由

  • 自分がウェブAPIを公開した経験から
    • 一般論:公共の資産、透明性、イノベーション
    • 学術情報サービスとして:信頼性の高いデータをウェブに放流する、PRとフィードバック、新規顧客・市場開拓、「まだ見ぬ他者とのコミュニケーション」
    • インフラとして使えるように

質疑応答

Q:ライセンスについて様々あると思うが
大向:そこが重要、精密に議論する必要がある。現在はCCとほぼ道東の公開条件というのをやっている。どこも決まってなかったことが決まり始めているので、本当にだめというのを外して公開すればいい
加藤:CC0にする前の段階があって、2年くらい前にCC0にしますという書類を送って解決させた。同じ例はいくつかあって、ライセンスを変えるときに合致しないものを切ってしまうような事例もあった。
生貝:目録データについては著作権そのものは発生しないだろうが、無断での二次利用は禁止するなど各施設であると思う。

木村:CCで変更ができる条件の場合、意図的に印象操作などで変更されるなどのリスクはどう捉えているか
生貝:改変自由にすることの難しいところ。オープンデータである前提として改変の可能性はある。意図的なものというのは線引きが難しいので、それをライセンスで縛るのは難しいため、作る側としては難しいところ。対策としては、改変した場合は改変の意図をできるだけ明記する
ようにお願いするため、だますような改変の仕方はしないように強調したい。
大向:ライセンスがなんだろうと悪意がある人は改変する。そういう場合は名誉毀損などそのレイヤーで解決すべきであって、ライセンスでなんとかすべきではないと思う。

   

(執筆:小林映里奈)



このエントリーをはてなブックマークに追加