Home About
食品の原材料表記の括弧の多重入れ子文字列をパースしてトークンに分割する

たとえば無印良品のこの食品 フライパンでつくるミールキット 海老といかのアヒージョの商品表示情報のPDFをみると以下のような文字列が原材料名に記載されています。

ブロッコリー(エクアドル)、揚げじゃがいも(じゃがいも(国産)、植物油脂)、殻付き海老(インド)、いか(中国)、(一部にえび・いかを含む)

このように括弧が入れ子で多重に出現している文字列、しかも、一重/二重/三重・・・ n 重のバリエーションがある文字列をパースすることを考えたい。

最終的には以下のように括弧で括られた部分を AST(Abstract syntax tree) に 変換して、各トークンをその括弧の包含関係を生かした状態で把握できるようにしたい。

ingredients-AST

» Read More
Crostini IME support によりChromebookのブラウザ(Vivaldi)で Ctrl+N できるようになった

ブラウザのテキストエリアで Emacs キーバインド を使いたいというエントリーを随分前に書いたのだが、これはその続編です。

crostini-ime-option

» Read More
ローカルPCで Rinna 3.6B (rinnna japanese-gpt-neox-3.6b) を試した

Ubuntu Server 22.04 + GPU 12GB で Rinna 3.6B を動かしたので、その備忘録です。

モチベーションとしては、LlamaIndex で実現しているのと同じようなことをこのモデルなどを活用しながらつくることができないかと思っています。

» Read More
テキスト、文章の分散表現(Embeddings)を取得する

SentenceTransformers を使うことで、文章やテキストの分散表現を計算できる。

You can use this framework to compute sentence / text embeddings...

今回はこれをやってみたので、その備忘録です。 とりあえず、なんとなくできたというレベルなので、その点ご了承ください。 使用したのはこちらの日本語BERTモデル bert-large-japanese-v2 です。

» Read More
Go で JSON を ファイルから読み込んで使う(備忘録)

以前にGolang で JSON を Marshal, Unmarshal する というエントリーを書きましたが、その続きです。 ファイルとして用意してある json データを読み込んで使う方法。

» Read More
Kotlin, fold を使って階層のあるリストをパースする

たとえば、次のようなマークアップされたセカンドレベルまで階層のあるリストを表現したテキストがあったとして、 それを kotlin の fold を使ってパースして構造化する例を考える。

» Read More
Bottle に React から POST する

Python Web Framework の Bottle で GET/POST する方法を確認します。 その後、React からPOSTを使うところまでの備忘録です。

bottle and react 2

» Read More
特定ルールでテキストのヘッダとボディとを分離する

kotlin でステートマシンを使って行ごとの状態を把握したい。

まあ、そんな大げさな話ではない。 テキストファイルの先頭から行ごとに調べて、見出し行が出現する直前までをヘッダとし、それ以後はボディとして扱いたい。そのためのコードをどう書くかの話。

» Read More
ControlNet を使ってざっくり手描きした絵から期待する画像をつくる

https://github.com/lllyasviel/ControlNet を使ってみました。 ControlNet はいくつかの機能があるのですが、その中の手描き画像+プロンプトから画像を生成するものを試しました。

ControlNet Prompt Desk

» Read More
Stable Diffusion で期待した画像をつくるためのプロンプト

コアプロンプト a cup of coffee からのあれこれ展開を試したのでシェアします。

A cup of coffee, plain background, art by Hokusai

これは個人的に一番気に入った葛飾北斎風の A cup of coffee です。

» Read More
OpenAI の Image generation を試した node.js 版

ChatGPTのAPIを試そうと思って OpenAI アカウント作成したのですが、画像生成がおもしろそうと思ってそちらを試しました。 これが「A sheltie is running around the field」というテキスト(プロンプト)から生成した画像です。(OpenAI の Create Image APIを使用)

A sheltie is running around the field

» Read More
改善版) kotlin でパーサーコンビネータを実装する

テキストをパーサーコンビネータを使ってパースすることを考えてみる 」 というのを先日考えたのですが、今回はその改善版です。

many パーサーコンビネータ の再帰部分がどうにも気に入らないので見直しました。

» Read More