2010年11月15日月曜日

青空文庫の底本を検索してわかった事

 Aozoramazonは当初、検索結果が空振り(検索結果なし)だったり、 関係無い書籍がヒットして本来の底本が埋もれてしまう事が今以上に起きていました。底本検索の考え方や、精度向上のために行った工夫を書き残しておきます。


主な 元ネタは公開日に書き込んだtwitterのログです。
http://twilog.org/ThinTube/date-101107


  • 検索は2種類の方法でやっています。基本的にItemSearchという点では共通ですが、条件の与え方が違います。一つはタイトル、出版社、著者を指定した底本検索、もう一つはこれらをキーワードとして同列に列挙するキーワード検索。
  •  出版社名に「xx文庫、xx社」と入力されている場合が多いので、底本検索の検索条件に出版社を渡す場合は「、」の前を全て削除します。さもないと、まずヒットしません。
  • 文庫名と類似する問題ですが、底本名に著者名を入れてしまっている場合があり、これも検索の障害になります。最近登録された例では、「龍馬の手紙、宮地佐一郎」があります。作品に登録されている著者と書籍の著者が異なるのですが、底本情報に著者の項目が無いため、他の項目に紛れ込んでいます。底本のタイトルに読点を含む他の作品に影響するため、一概に「、」以降を削除する訳にも行きません。この対策は諦めて、キーワード検索にマッチする事に望みを繋いでいます。
  • 底本に「第五巻」とあるのをそのまま渡しても、AmazonのAPIでは大抵ヒットしません。Amazonでは「第5巻」のように巻数がアラビア数字になっている場合が多いです。そのままの底本名でヒットしない場合は漢数字をアラビア数字に置き換えて検索します。定量的に調べてはいませんが、これでずいぶんヒット率上がりました。あと、「巻」を省略することでヒットする事もあります。
  • 底本優先で探すので、Titleの条件は底本名の次に作品名をトライします。次に作品名をTitleとして検索します。
  • 底本がヒットしないとキーワード検索で適当に探します。新しい発見という意味では、その方が作品との出会いは増えますが、青空文庫の作品選択を助けるという意味では脱線気味です。
  • 底本検索は出版社と著者を指定するので、割と確度が高いです。それに比べるとキーワード検索はいいかげん。でも、底本が見つからない場合は仕方ないので表示しますし、関連商品との出会いも楽しいといえば楽しいので、作品毎のページでは両方を表示します。
  • 底本の情報にISBNがあれば、検索はとても楽、というか、検索するまでもなくカーリル等の書籍情報をダイレクトに表示できるはずです。 
  今でも検索結果が18禁のオンパレードとか、笑顔が引きつりそうなページを表示してしまう事が多々あります。Amazonの検索結果には対象年齢の情報もあるっぽいので、よい子が見ても大丈夫なように、そのうちフィルタリングをしようと思います。

0 件のコメント:

コメントを投稿