2010年11月8日月曜日

作品一覧にキーワード検索を入れるか否か

 キーワード検索の結果にノイズが多いと思って、新着と作者別の作品一覧にキーワード検索を入れるのをやめてみた。結果、「龍馬の手紙」が完全に空振り。理由は、登録されている底本のタイトルが「龍馬の手紙、宮地佐一郎」で、著者名をタイトルの一部としてしまっているため。底本検索では、
  • Title
  • Author
  • Publisher
の全て、またはAuthorかPublishを省略した2つを検索パラメータに指定してProduct Advertising APIを読んでいる。Titleには青空文庫の作品名または底本タイトルを渡す。
「龍馬の手紙」は、Amazon上では
  • Author: 宮地佐一郎
  • Titel: 龍馬の手紙
であるため、いずれのパラメータの組み合わせでもヒットしない。ちなみに、ヒットしなかったパラメータの組み合わせは以下の通り。
{'Publisher': '講談社', 'Author': '坂本 竜馬', 'Title': '龍馬の手紙、宮地佐一郎'},
{'Publisher': '講談社', 'Title': '龍馬の手紙、宮地佐一郎'},
{'Publisher': '講談社', 'Author': '坂本 竜馬', 'Title': '手紙 109 慶応三年九月二十七日 本山只一郎あて'},
{'Publisher': '講談社', 'Title': '手紙 109 慶応三年九月二十七日 本山只一郎あて'},
{'Title': '龍馬の手紙、宮地佐一郎', 'Author': '坂本 竜馬'},
{'Title': '手紙 109 慶応三年九月二十七日 本山只一郎あて', 'Author': '坂本 竜馬'}
どの組み合わせを取ってもAmazonの商品情報と一致しない。

 根本的な問題は、青空文庫の底本情報が底本タイトル、出版社、発行日しか無いこと。この限られた項目の中に底本を特定するための情報を無理やり入れているため、出版社に「新潮文庫、新潮社」と出版社名以外の情報を入れたり、タイトルに編集者名を入れてしまう事になる。著者は作品の作者と同じだろうという前提で項目を省略しているのだと思うが、書籍となった場合は商品としての著者・編者は原作品の作者と異なってしまうこともある。
 出版社の方は比較的問題は簡単で、出版社名に句読点が入ることは常識的に無いので、「、」より前の部分を削除するとだいたい正確にマッチする。タイトルは自由度が高いので、そうはいかない。

 「龍馬の手紙」に限って言えば、「、」以降を削除することで検索が成功するだろう。しかし、このような一部の作品に特化した加工をすると、他の作品の検索でぼろが出る気がする。タイトルについてはこれ以上深入りはしない事にして、作品一覧上にキーワード検索を表示する動作に戻そうと思う。

0 件のコメント:

コメントを投稿