目的 TF-IDFによる2013年参議院選挙のパンフレットの解析で使用した文章の類似度を調べる処理をsklearnとJanomeを使用して実行してみます。 実験コード from janome.tokenizer impo…
目的 TF-IDFによる2013年参議院選挙のパンフレットの解析で使用した文章の類似度を調べる処理をsklearnとJanomeを使用して実行してみます。 実験コード from janome.tokenizer impo…
目的 PDFはテキストの情報が含まれている場合がありますが、場合によっては画像として文字を使用している場合があります。 今回はOCR機能を使用して画像からテキストを抽出してみます。 https://github.com/…
目的 今回はGoogle DriveniにCSVをアップロードしてGoogleスプレッドシートとして編集してみます。 まず、前提条件として以下のチュートリアルを実行してください。 Google Drive API- Py…
はじめに 下記の記事でPyPDF2とreportlabを用いてPDFの点線を実線に置き換える実験を行いました。 PDFの点線を実線におきかえる(PyPDF2 + reportlab) この時、PyPDF2の制限で保存した…
はじめに 以下の記事でcamelotを使用してPDFからテーブルを抽出する場合に、PDFが点線で構成されているとテーブルを旨く認識できない問題を上げました。 ・camelotで点線を実線として処理する この時はcamel…
はじめに camelotではパラメータの調整だけでは点線を含むテーブルの処理が上手く動作しません。 たとえば、以下のようなPDFがそれにあたります。 ➀縦の点線 https://github.com/atlanhq/ca…
目的 政府がオープンデータを叫び出して何年かが過ぎましたが、多くの政府が公開するデータはPDFベースになっています。 さすがにひと昔前のように紙をスキャンしただけのデータではなくなりましたがCSVやJSONなどの機械的に…
目的 はてなブックマークをREST API経由で登録してみます。 環境は以下の通りです。 ・windows 10 ・python 3.7.4 はてなブックマークのREST APIについては下記を参照してください。 htt…
はじめに 一つのサービスに依存するのは、リスクだと思うのでQiitaの記事をGitHubに移行するスクリプトを書いてみます。 なお、私の記事は以下のようになりました。 https://github.com/mima3/n…
はじめに ちょっと前に20年物のC言語で作られたシステムのテストを色々改善しようとしてみたので、この時に得たちょっとした知見を書いていこうと思います。 ※注意 記事を書くために自分のパソコンで当時を思い出しながら環境を作…