法華狼の日記

他名義は“ほっけ”等。主な話題は、アニメやネットや歴史認識の感想。ときどき著名人は敬称略。

あまり利用することはなかったが

ちょっと新聞を読んでいて気になったのでメモしておく。インターネット上で公開されている史料として便利なのだが、専門家でも引用している例が見当たらないのはこういう事情があったからだろうか。
http://mainichi.jp/kansai/news/20100906ddf041040016000c.html

 国立公文書館アジア歴史資料センター(東京都千代田区)の明治期を中心にした公文書目録に、多数の誤りがあることが松山市の海事史研究家、松尾忠博さん(86)の指摘で分かった。業者に年約3500万円を支払って目録作成を委託しているが、年約20万件と多いためチェックしきれないという。【村田拓也】

 センターは村山富市首相(当時)が提唱し、近隣諸国との歴史認識を共有するため01年に開設。明治初期から太平洋戦争終結までの公文書約152万点をインターネット上で公開している。目録には、歴史文書の冒頭300字程度をテキストに書き起こし、「内容」として記されている。

 松尾さんが日清、日露戦争などの公文書の「内容」を1000点以上閲覧したところ、すべてで間違いが見つかった。日露戦争に関する旧陸軍省の文書では、日本に捕虜の写真を求めてきたのは「米国大統領」だったのに、目録では2カ所とも「米国大使」になっていた。同戦争に関する外務省文書では「Tokyo 27 mai 1904」が「Lokyok 29 Noai 1904」と、数字もつづりも間違っていた。ページを飛ばして訳した資料もあり、松尾さんは「逆に混乱する」と懸念している。

 センターによると、目録作成は東京都内の印刷会社などに委託し、文字認識ソフトは使わない契約。できた目録を日韓中露などの歴史を学んだセンター職員9人が確認することになっている。センターの濱田英彦次長は「間違いが多いのは事実。崩し字の多い古文書のような文書を、正確に読み取れないのだろう。目録作成は毎年20万件近くあり、チェックする人手がない」と釈明する。

それだけ扱う資料数が多いなら、適度に文字認識ソフトを使用したほうが全体の誤りは軽減されると素人考えで思うのだが。人間も間違うほど崩し字が多いので難しいのだろうか。