サイトをエンジニアフレンドリーにしよう！robots.txt / sitemap.xml / itemscope / opensearch で機会判読可能に改良する

2020-03-16

エンジニアには日々の情報収集が欠かせません。エンジニア足るもの、その収集方法自体を改善したくなりますね。初開催の春のjigインターン、テーマは短い時間で濃い情報収集。

開発開始！

ウェブサイトの入口といえば index.html ですが、Googleなどのサーチエンジンなど、プログラムによる自動閲覧（クローラー）のための入口は robots.txt。AllowとDisallowで辿っていいところとだめなところ、サイトマップ(sitemap.xml)が記述されています。「サイトマップの作成と送信 - Search Console ヘルプ」によると、ひとつのサイトマップに50MB or 5万URLまで設定できるとのこと（オーバーする場合は sitemapタグを使いましょう、500コまで）

長らく放置してしまっていた一日一創 robots.txt を更新！オープンデータな当サイト、もちろん全件 Allow です。今回サイトマップ（sitemap.xml）も追加！ 2012年の一日一創はまだいれてませんが、アプリなど含めて、5,650ページあったようです。

人間のためのHTMLという言語は、プログラムでは理解しづらいので、統一されたボキャブラリー（語彙）を HTML5 の itemscope 属性を使って、意味を明示することができます。
例えば、映画を紹介するHTMLはこんな感じ。（参考、Getting Started - schema.org）

<div itemscope itemtype="http://schema.org/Movie"> <h1 itemprop="name">AKIRA</h1> <div>監督: <span itemprop="director">大友克洋</span></div> <div>ジャンル: <span itemprop="genre">SFアニメ</span></div> <div>出典: <a itemporp="url" href="https://eiga.com/movie/34459/">AKIRA : 作品情報 - 映画.com</a></div> </div>

itemscope と itemtype で、そのデータが何なのかを明示（この場合、映画 Movie）し、itempropを使って監督（director）、ジャンル（genre）、出典URL（url）を属性として明示しています。「AKIRA : 作品情報 - 映画.com」のサイトでも、itemscope / itemtype / itemprop が使われているので、ソースを見てみましょう。

ブログ「一日一創」の記事は Article（記事）を使ってマークアップしました。

サイト検索が使えることも opensearch を使って、明示。ブラウザによってデフォルトの検索エンジンにしたり、いろいろと便利にしてくれます。検索の利便性も上げないと！

マシンリーダブルなウェブは、エンジニアフレンドリー！

tags
- 所要時間: 3分
- ジャンル: 3分でわかるTech記事

福野泰介の一日一創

サイトをエンジニアフレンドリーにしよう！robots.txt / sitemap.xml / itemscope / opensearch で機会判読可能に改良する

似た記事リンク