概要 LLMなどで作成されたテキストの品質を自動測定するのは難しい。 コサイン類似度やBLEUなどの手法があるが、それは人間の判断とは違いが多い。 G-EVALではタスクの導入と評価基準から評価手順をLLMで作成させた評…
概要 LLMなどで作成されたテキストの品質を自動測定するのは難しい。 コサイン類似度やBLEUなどの手法があるが、それは人間の判断とは違いが多い。 G-EVALではタスクの導入と評価基準から評価手順をLLMで作成させた評…
はじめに Googleのバグ予測アルゴリズムというものがあります。 https://www.publickey1.jp/blog/11/post_193.html 簡単にいうと最近、数多くバグ修正したコードはバグが発生し…
Visual Studio 2019でリモートデバッグを行う 開発環境の入っていない端末でデバッグを行う場合、リモートデバッグを使用することができる。 以下参照 https://docs.microsoft.com/ja…
PowerShellでVisualStudioを操作する VisualStudioをスクリプトで操作したい場合がたまにあります。たとえば、ソースコード中の関数の一覧を列挙したり、コードを自動生成する場合などです。 現Vi…
OGPってなんだってばよ OGPがなんだかわからなかったので調べてみました。OGPとははOpen Graph protocolの略で、以下に仕様が公開されています。 https://ogp.me/ OGPを使用することで…
概要 トスツイとは「@tos」をつけてツイートした場合に、フォロワーのタイムラインに表示されず、ツイートできるというテクニックです。 ※「ツイートと返信」には表示されますし、検索には引っかかります。 @tosで何故タイム…
目的 TF-IDFによる2013年参議院選挙のパンフレットの解析で使用した文章の類似度を調べる処理をsklearnとJanomeを使用して実行してみます。 実験コード from janome.tokenizer impo…
目的 PDFはテキストの情報が含まれている場合がありますが、場合によっては画像として文字を使用している場合があります。 今回はOCR機能を使用して画像からテキストを抽出してみます。 https://github.com/…
目的 今回はGoogle DriveniにCSVをアップロードしてGoogleスプレッドシートとして編集してみます。 まず、前提条件として以下のチュートリアルを実行してください。 Google Drive API- Py…
はじめに PDFを翻訳する方法は色々あります。 ここでは色々の方法で実験してみます。 今回は以下のPDFを使用して[MS-CFB].pdfを対象にどのような翻訳がされるか確認してみましょう。 MS-CFB.pdf PDF…