タグ: Python

sklearnを使用して文章の類似度を調べる

投稿日: 2020年5月13日投稿者: mima3

目的 TF-IDFによる２０１３年参議院選挙のパンフレットの解析で使用した文章の類似度を調べる処理をsklearnとJanomeを使用して実行してみます。実験コード from janome.tokenizer impo…

目的 PDFはテキストの情報が含まれている場合がありますが、場合によっては画像として文字を使用している場合があります。今回はOCR機能を使用して画像からテキストを抽出してみます。 https://github.com/…

目的今回はGoogle DriveniにCSVをアップロードしてGoogleスプレッドシートとして編集してみます。まず、前提条件として以下のチュートリアルを実行してください。 Google Drive API- Py…

はじめに下記の記事でPyPDF2とreportlabを用いてPDFの点線を実線に置き換える実験を行いました。 PDFの点線を実線におきかえる(PyPDF2 + reportlab) この時、PyPDF2の制限で保存した…

はじめに以下の記事でcamelotを使用してPDFからテーブルを抽出する場合に、PDFが点線で構成されているとテーブルを旨く認識できない問題を上げました。・camelotで点線を実線として処理するこの時はcamel…

はじめに camelotではパラメータの調整だけでは点線を含むテーブルの処理が上手く動作しません。たとえば、以下のようなPDFがそれにあたります。 ➀縦の点線 https://github.com/atlanhq/ca…

目的政府がオープンデータを叫び出して何年かが過ぎましたが、多くの政府が公開するデータはPDFベースになっています。さすがにひと昔前のように紙をスキャンしただけのデータではなくなりましたがCSVやJSONなどの機械的に…

目的はてなブックマークをREST API経由で登録してみます。環境は以下の通りです。・windows 10 ・python 3.7.4 はてなブックマークのREST APIについては下記を参照してください。 htt…

投稿日: 2020年3月29日投稿者: mima3

はじめに一つのサービスに依存するのは、リスクだと思うのでQiitaの記事をGitHubに移行するスクリプトを書いてみます。なお、私の記事は以下のようになりました。 https://github.com/mima3/n…

投稿日: 2020年3月29日投稿者: mima3

はじめにちょっと前に20年物のC言語で作られたシステムのテストを色々改善しようとしてみたので、この時に得たちょっとした知見を書いていこうと思います。 ※注意記事を書くために自分のパソコンで当時を思い出しながら環境を作…