1. Home
  2. Kangaroonote
  3. PHP

PHPの最近のブログ記事

HTML を構造化データとして扱う - htmlSQL を試してみる

htmlSQL とは SQL のような構文で HTML にアクセスできるインターフェースを提供してくれる PHP のクラスファイルです。

DOM にせよ htmlSQL にせよ、こういったかたちで HTML を扱うと、それがただ描画のためにあるのではなく、共通の情報資産としてあるということを再認識します。

情報の構造化というのは、その情報にたいするアクセス構造の設計です。

Web サイトはドメインという概念空間での文脈をもち、それらはプログラムの計算予測性を裏切らないかたちでの法則の設計ということが求められます。個々のドキュメントの構造のみならず、そういったドメインレベルでの構造設計というものは、今後、 Web の可能性と広げていくためには欠かせないことだと思います。

HTML では、明確にその全体の文脈を記述することはできないようですが、そのひとつの手段として、 rel="prev" rel="next" などを記述することで、前後の文脈を関連付けるはできるようです。XML ベースでは、 RDF もしくは XHTML のモジュールとして RDFa などを使用することで、文書間の関連付けということが可能になるようです。

これらは現段階では一部のエージェントがナビゲーションを構成するといった使われ方しかされていないようですが、今後、意味解析の技術が発展すれば、前後のドキュメントの文脈から、現在のドキュメントの含意を推論することで、より精度の高い検索システムの構築が可能になるなど、社会全体の利便性を向上させる可能性を秘めていると思います。

たかが HTML かもしれません。しかし、全ての基盤がその文書構造にあるとも言えます。

htmlSQL を試してみる

Kangaroonote カテゴリ一覧