Home About
Word2Vec, Wikipedia の日本語コンテンツを入手してトレーニング(備忘録)

Word2Vec ... いまさら感がありますが、Wikipediaダウンロードから手順を書き残します。

使用した環境は Ubuntu 22.04 LTS です。

» Read More
Cloud Vision API を使う Python3 編

Google の Cloud Vision APIの機能のひとつにOCRがあり これを業務で使う機会がありました。 実際に使ってみると、対象が印刷物をスキャンした画像データだったなど条件がよかったのだとは思いますが ほぼOCR処理として100%に近い形でテキストに変換されました。 とはいえ、100%ではないので、そこは人間が一度はすべて確認する必要がありますし、 そもそもOCRで読みとったテキストをこちらが使用したい単位に整理する処理については 当然OCRの守備範囲外になります。 そのため、その部分のコードを書くのが相当に大変でした。

もし人間が目視&手作業としてテキスト入力すれば、その整理部分も含めて人間が処理することになる。 それがアウトソーシングとしてページ単価いくらで予算の範囲で収まるのであれば、 どうなんだろう。 自分ががんばって書いたコード部分は結局たいした価値があるのだろうか……という微妙な仕事になってしまった。

» Read More
ポケモン名からタイプを引く, pandas と openpyxl を使ってエクセルデータを読み取る

ポケモンタイプ一覧表

こんなエクセルデータの表 pokemon-type-table.xlsx があったとして、それを読み取る。 そして ポケモン名からポケモンタイプを引けるようにする。

» Read More
画像分類 PyTorch + fastai 覚え書き

画像を分類が PyTorch + fastai で簡単にできることがわかったのでその覚え書きです。

PyTorch + fastai だけでなく、 Lobe( https://www.lobe.ai/ ) や Google Vision AI にしてもそうですが、 無料で画像分類を試すことができます。 もう、この程度のことでは、誰も驚かない時代になった。

» Read More
Word2Vec, 単語ベクトルを2次元でマッピング

Javaで学ぶ自然言語処理と機械学習」という本で紹介されていた Wikipedia でトレーニング済みの単語分散表現データが便利。 このデータの活用例として日本のブランドのマップを作成してみた。

word2vec-map

» Read More
グラフカットを使った画像の切り抜き(パート3)

パート2 で書いたコードでいろいろなパンの写真を切り抜いて見ます。

» Read More
グラフカットを使った画像の切り抜き(パート2)

パート1 ではグラフカットの基本を確認しました。 パート2では実際にこの理論を使って、パンの写真からパンと背景を分離してみます。

» Read More
グラフカットを使った画像の切り抜き(パート1)

この手の画像切り抜きは Photoshop を使えば簡単かもしれませんが、 ここでは Python を使って切り抜きをしてみます。

» Read More
Pythonによる日付操作(python,date)

Pythonによる日付操作のメモ。

» Read More