Libre10 開発開始

前回のrec10に引き続き、誰得系プロジェクト第二弾!

Libre10を開発開始しました。

大学に入って資料やテストプリントなどをスキャン&OCRしてたのですが、

せっかくのこのデータ、生かさなきゃもったいない

文書データを活かす→全文検索っしょということで、最初はデスクトップサーチを使ってたわけです

デスクトップサーチ最強でしょ、spotlight使いやすすぎワロタとか言ってたら、

スマホで使えなかったわけです。

スマホで使えなくて何がWeb2.0(死語)だ!ということで、時代はクラウド、そう、雲の時代なわけです。

蜘蛛の糸から雲へ。

なんとなく日本語的に収まりがよかったりしますが、そんなことどうでもいいです。

 

自分の持ってるデータ、クラウドで使えなくて何が情強(自称)だよ!ってことです。

御託はこれぐらいにして、

Libre10とは

検索エンジンにApache solrを用いて、検索結果のpdfを1ページごとに切り出して表示する、

pdf統合管理プラットフォームです。(大袈裟

http://sourceforge.jp/projects/libre10/

こちらから最新のソースなどは見られます。一応手元ではひと通り動いています。

OCRエンジン更新

久しぶりの投稿です。

手持ちの自炊後電子教科書を何とかスマホやタブレットで全文検索、観閲できるようにならないかと思い、

pdfから透過テキストを取り出して、眺めていたのですがどうにもミスが多く、手で修正する必要がありました。

もちろんそんなの面倒でやっていられないため、怪しい記号の羅列のまま使っていたわけですが、

新たに電子教科書全文検索エンジンLibre10を開発するに当たり、新たなOCRソフトに切り替えてみました。

これまでは読んde!!ココ Ver.13を使っていたのですが、今回新たに
読取革命Ver.15 製品版へと切り替えてみました。

 

気になる結果ですが、日英混在時の英語の文章が読んでココでは全くといって良いほど認識できていなかったのが

読取革命ではほぼ正しく、全体の合致率もおおよそ80%程度から90%程度まで上がっているという印象を受けました。

発売時期を見てみると2007年と2012年と5年もの間が開いており、さもありなんと言ったところでしょうか

 

思っていたよりもOCRエンジンの精度は上がっているようで、良い買い物をしました。