<< TOPへ
Chart-Text: A Fully Automated Chart Image Descriptor
・視覚障害者がチャート画像を理解できるように、チャートを文章にして説明するシステムChart-Text。2018年。
・チャート分類では99.72%、記述の作成では78.9%を達成。最後に説明文章化しているサンプルがあるけど、結構精度は良い
・CNNとして学習する公開されたデータセットは存在しないで、Matplotlibというもので画像を生成している。トレーニングデータを自前で作成しているということ。よくある。
・MobileNetをCNNのアーキテクチャとして選択。VGG-16と同程度の制度を達成するけど、パラメーターはものすごく少なくて済むというものらしい。その分計算量が少なくてスピードも速いと思われる
・画像内のテキストを検出する機構も備えられていて、分類されている。ここが肝だろう。
・OCRはTesseract OCRを利用している。一通りどれもやったことあるのでよくわかる。
・扱うグラフとしては、3次元ではないことや、バーの中にテキストはない、各スタックが明確な色を持っている、など前提を切っている。前提を切ることで精度があがるので、しかたない
・CNNが画像中のどこに分類しているかを理解することがネットワークの汎化能力のため重要ということで、GradCamの可視化をつかっている。ヒートマップ的に、どこで画像分類の判断をしているかがヒートマップになっている。この記述っているかな??自明だと思うのだけど。CNNの分類具合をわかるように主張したかったように思えるけど、論文としては必要ない気がする。
・抽出されたテキストが真正(True Positive)であると判断するのは、Levenshtein Distanceという距離が80%より大きい場合と定義している。レーベンシュタイン距離(メモ)
・自前で作ったデータをトレーニングしているから、「ウェブやほかのソースからのデータの性能は急落している」と。勇気をもって言及することは大事。おおむね、Matplotlibで作ったグラフであればだいたい読み取ってくれるのだろう。
・総じて、机上での研究だけど、その中で良い結果を出していることで見栄え能くまとめられている。細かい工夫も施されているので努力したあともうかがえる。
・ちなみにデモ用WebサイトのURLが書いてあったけど、案の定クローズされていた。
http://ml.spi-global.com:8000/
https://arxiv.org/abs/1812.10636