top of page
生成AI
生成AIを用いたプログラムやツールを紹介


【完全版】HeyGenにRAG実装!Pinecone連携で賢いアバター構築
どうしてもPineconeのRAGを使って、インタラクティブアバターを作りたいと思っていました。副業でお客様と相談して、今回はHeyGenの知識ベース(デフォルト)を使うことにしましたが、今後知識が増えると、それでは対応しきれなくなります。やはりRAGによる実現が必要だと考えていました。しかし、6ヶ月間いろいろな資料を調べましたが、なかなかうまくいきませんでした。そして今日(2026年1月2日)、ついに動作するようになったので、ソースコードを紹介します。これが皆様のプログラミング意欲の向上につながれば幸いです。 Qiitaに記事を投稿していますので、詳細はこちらをご覧ください。 https://qiita.com/ogi_kimura/items/20f6a4c176bc1ebe91a2
たろう 木村
1月4日読了時間: 1分


Python不要で画像生成!DifyとStableDiffusionを使った簡単な自動化手順
前回の投稿記事ではDifyの「ワークフロー」を用いて、firercrawlにてスクレイピングを簡単に実施する方法を紹介しました。 今回は、Difyの「ワークフロー」を用いて、画像生成を行うサービスStablediffusionにて、簡単画像生成に挑戦してみたいと思います。 一連のDifyの「ワークフロー」をマスターすれば、Difyを使っていろいろな処理が簡単に出来るようになると思います。 詳しくは以下のURLをご確認ください。 https://qiita.com/ogi_kimura/items/6f6449885063d98827ff
たろう 木村
2025年1月4日読了時間: 1分


DifyでノーコードWebスクレイピング!簡単ワークフローで作業効率化
前回、Difyを使用してFirecrawlの結果を「ナレッジ」に登録し、それを基にLLMで要約を行うワークフローを作成しました(これを「ナレッジを登録する方法」と呼びます)。 今回は、Firecrawlの機能を直接使用してスクレイピングを行う方法(以下、「直接Firecrawlを使ってスクレイピングする方法」と呼びます)に挑戦します。今回もノーコードで実施します! 詳細は以下のURLからご確認ください。 https://qiita.com/ogi_kimura/items/447b2244b32392091159
たろう 木村
2025年1月4日読了時間: 1分


FirecrawlとDifyで簡単スクレイピング
前回の記事では、Firecrawlを使用したプログラミングをPythonで実装し、Webブラウザのコンテンツをテキストファイルに出力する方法を試してみました。 今回の記事では、Difyのワークフローを活用し、プログラミングをせずに結果を表示させる方法に挑戦します。これまでの投稿では、ローカルLLMであるOllamaをDifyに接続してチャットを試したことがありますが、ワークフローの作成は今回が初めてです。どれほど簡単に実現できるのかを検証してみます。 詳細は以下のURLからご確認ください。 https://qiita.com/ogi_kimura/items/63389dddd6c9f6b63717
たろう 木村
2025年1月4日読了時間: 1分


Firecrawlで簡単スクレイピング:Pythonプログラムでの実践例
前回と前々回は、browser-useに関する記事を投稿し、AIが自律的にWebブラウザを使ってコンテンツ情報を取得する仕組みについて解説しました。今回は、Webブラウザを介さずに「スクレイピング」という手法でコンテンツ情報を取得するツール、Firecrawlを試してみます。 ただし、「スクレイピング」は誤った使い方をすると他のWebサイトに迷惑をかけたり、トラブルを引き起こす可能性があります。そのため、ご自身が管理しているWebサイトや利用許可を得たサイトでのみ実施するようにしてください。 それでは、Firecrawlを使ったスクレイピングに挑戦してみましょう! 詳しい内容は、以下の投稿記事をご覧ください。 https://qiita.com/ogi_kimura/items/5800af71691737848c92
たろう 木村
2024年12月31日読了時間: 1分


Browser-Useで実現する最新情報応答チャット
seleniumとbrowser-useを活用することで、Webサイト上の豊富で最新な情報をより効率的に自動取得できる可能性があると考えています。 今回は、このbrowser-useエンジンを活用して、チャット形式でのやり取りを実現できないかと模索しました。 その手段として、streamlitを使用したプロトタイプの構築に挑戦しています。 具体的には、チャット形式での使用感や性能(レスポンス時間など)の確認を目的としています。 詳細は、以下の投稿記事をご覧ください。 https://qiita.com/ogi_kimura/items/f0834e5b357a8d6c9d11
たろう 木村
2024年12月31日読了時間: 1分


browser-useでインタラクティブなスクレイピング:最新情報にアクセス
MBA取得に向けた小論文や面接の準備に追われていたため、ここしばらく記事を書く時間がありませんでした。しかし、会社が冬期休暇に入り、少し余裕ができたので、久しぶりに記事を書いてみることにしました。 最近、browser-useというPythonライブラリが登場したことを、Google検索などで知りました。以前、seleniumを使ったWebブラウザ操作の自動化に関する記事を投稿しましたが、このbrowser-useはよりインタラクティブな操作が可能で、将来的な可能性を大いに感じています。 今回は、このbrowser-useを使ったプログラミングに挑戦し、その使い勝手や将来性について確認してみたいと思います。 詳しくは、以下の投稿記事をご覧ください。 https://qiita.com/ogi_kimura/items/2bff25e43ecbfed1a624
たろう 木村
2024年12月31日読了時間: 1分


Replitで10分でWebシステムを作ろう
冒頭のカレンダーですが、私はほぼ毎日ジョギングをしており、その履歴を紙のカレンダーに記録しています。「走」はジョギングをした日を表し、その横に記載している数字は体重です。「飲」は夜にお酒を飲んだこと、「筋」は筋トレをしたこと、「外」は外食をしたことをそれぞれ示しています。外食をした翌日は、たいてい体重が増えてしまいます💦 このように紙のカレンダーに記録しているものの、体重の増減をグラフで視覚的に確認したくなりました。そこで、毎日Webシステムに体重を登録し、それをグラフで表示できるような仕組みを作りたいと考えるようになりました。 そんなときにReplitの記事を目にし、「これならWebシステムが作れるのでは?」と思い立ちました。そこから(約20分ほど)奮闘した記録をこの記事にまとめてみました! 詳しくはQiitaの記事をご覧ください https://qiita.com/ogi_kimura/items/835e020a15d169e57d48
たろう 木村
2024年12月8日読了時間: 1分


生成AIを活用したアバターの可能性: HeyGenで未来のインタラクティブ体験を試す
最近では、生成AIを活用したさまざまなサービスが続々と登場し、これらを組み合わせることで、今は想像もつかないような革新的なアイデアが生まれる可能性を感じています。今回はその中でも、HeyGenというサービスを試してみたので、ご紹介します。 HeyGenは、撮影した動画や音声データをもとに、AIがアバターを通じて発話したり、インタラクティブな対話が可能になるプラットフォームです。私は特に、将来的にコールセンター業務などをアバターを使ったチャット形式に置き換えることで、コスト削減が実現できるのではないかと期待しています。 今回は、自分の動画と音声を基にHeyGenを使い、私が実際に発したことのない言葉をアバターに話させることに挑戦してみました。 詳しくはQiitaの記事をご覧ください https://qiita.com/ogi_kimura/items/4e653af5e94b89188b56
たろう 木村
2024年12月8日読了時間: 1分


ローカルLLMの進化:Llama3.2で特許検索システムを再構築!
今回は、「ローカルLLM」にリベンジします。以前、ローカル環境にLLMを構築した際、その過程を記事にまとめました。しかし、結果として応答に10分以上かかることが多く、実用には程遠い状況でした。(記事公開後も再度トライしてみましたが、1時間以上応答がないことも珍しくありませんでした…) 諦めかけていたところ、@coitateさんの投稿を見て、もう一度挑戦してみることにしました。Meta社からLlama3.2が発表され、さらに軽量化されたという記事を読んだからです。@coitateさん、素晴らしい投稿ありがとうございます! 詳しくはQiitaの記事をご覧ください https://qiita.com/ogi_kimura/items/7e2e00049ba14aca716a
たろう 木村
2024年12月8日読了時間: 1分


LangChainとNeo4jでシステム連携図を自動生成する方法
社内でシステムの管理をしていると、各システムの連携を図や表で表す必要が出てくることがよくあります。しかし、人間は細かい管理には向いておらず、定期的なメンテナンスや最新化、そして統一された粒度(レベル)の管理を続けるのは非常に困難です。 そんな中で、最近「Neo4j」というグラフ描画ツールの存在を知りました。「LangChain」と「Neo4j」を使って効率的にグラフを作成する記事を目にし、これが私が求めていた「システム連携図の自動生成ツール」になるのではないかと考えました。そこで今回は、「LangChain」と「Neo4j」を実際に試してみました。 詳しくはQiitaの記事をご覧ください https://qiita.com/ogi_kimura/items/1e03b29bb245b553be26
たろう 木村
2024年12月8日読了時間: 1分


OCR vs OpenAIで表を解析してみた!精度の比較と課題を徹底検証
先日、「OCRとOpenAIの比較」や「宝くじの番号をOCRで一括確認する方法」に関する記事を投稿しました。主に画像内の文字や数字の認識精度を比較した内容です。詳しくは以下の記事をご覧ください。 今回は、表形式の画像に焦点を当てて、OCRとOpenAIの認識精度を比較してみようと思います。 私自身は現在、別の業務の傍ら「特許情報検索システム」の開発を進めています。特許情報には文章だけでなく、図や数式、表なども含まれるため、それらの内容を正確に読み取る技術が必要です。特に、表の認識精度向上は非常に重要な課題です。この調査結果は今後のシステム開発の貴重な知見となると考えています。 詳しくはQiitaの記事をご覧ください https://qiita.com/ogi_kimura/items/c6d85efae7641bde7041
たろう 木村
2024年12月8日読了時間: 1分


ローカルLLMをWindowsで動かしてみた話
最近「ローカルLLM」という言葉に惹かれ、調べてみたところ、なんとChatGPTのような言語モデルをローカルPC上で構築できるということを知りました。@ksonodaさんの投稿記事を参考にさせて頂きました。ありがとうございます。 これまで、過去の投稿記事でRAG(Retrieval Augmented Generation)をローカルPC上で動かすことに成功していたので(下記の過去の投稿記事)、もしかしたら生成AIに関するすべての処理を自前で完結させることができるかもしれない、という期待が膨らんできました。 そこで今回は、ローカルでのLLM構築に挑戦してみた体験談を共有したいと思います。 詳しくはQiitaの記事をご覧ください https://qiita.com/ogi_kimura/items/45dffc2bc8334561a432
たろう 木村
2024年12月8日読了時間: 1分


宝くじの番号をOCRで一括確認
今回は、宝くじ券の番号をOCRで認識させるプログラムを紹介します。私事で恐縮なのですが、先日「宝くじ記念くじ」を150枚買ったのですが、券を1つ1つ確認すると歳のせいか手がカサカサになり、紙で指が切れて血が出てしまいました。 OCRを使って当選した券を瞬時に見分けられないか、ということで、宝くじ券番号を一括で大量に読み込んで、当選した宝くじ券を判定するプログラムを作成しました。「そんなこと、券売所の機械で店員さんに確認してもらえばいいのに。」と思う方もいるかと思いますが、そこはご愛敬ということで・・・ 詳しくはQiitaの記事をご覧ください https://qiita.com/drafts/d2dd5466f3e1e125f6e4/edit
たろう 木村
2024年12月8日読了時間: 1分


OCRとOpenAIを比較してみた
情報システム部にいると、「OCRを試してみたい」とか「紙の帳票はやめないが、効率化を図りたい」などといろいろな引き合いが舞い込んできます。そのためOCRを小さなプロジェクトやPoCで試すことも多いのですが、文字認識の精度のせいなのか、ほとんどは立ち消えになってしまっています。 一方で、最近リリースされたgpt-4oは画像認識が可能であり、OCRよりも精度が高いのではないか?と思い始めました。 今回は、OCRとgpt-4o(お金がないので正確にはgpt-4o-mini)の読み取り精度を確認したいと思います。 詳しくはQiitaの記事をご覧ください https://qiita.com/ogi_kimura/items/f6b8e3426349767e8f7b
たろう 木村
2024年12月8日読了時間: 1分


LangChainを用いて大量ファイルをロードするVectorDBを作ってみた
私が考えた構想は、フォルダの中の非定型ファイル群を一気に読込み、その情報を利用して生成AIに問いかけをするという仕組みでした。すなわちタイトルにある「大量ファイルをロードするVectorDB」の実現です。早速やってみようと思い、「Udemy」や「YouTube」を色々見てみましたが、「LangChain」を全く知らないことと、Pythonプログラミングもままならない状況でしたので、どこから手を付けてよいのか分からない状況でした。そんな中、LangChainに関するとってもわかりやすい書籍を見つけました。それが「LangChat完全入門」です。先ずはサンプルをそのままコーディングしてトライ&エラーを繰り返し、解説を読みながら少しずつ理解してきました。 ある程度コーディングをしていくと、「大量ファイルをロードするVectorDB」が作れるのでは?というようになりました。また、いろいろなWebサイトをみても、1つのPDFファイルやtextファイルを基にVectorDBへ情報を蓄積させるものはありましたが、大量ファイルを蓄積させるものは、探すことができま
たろう 木村
2024年12月8日読了時間: 1分
![ChatGPT/LangChainによるチャットシステム構築[実践]入門のプログラムを試す](https://static.wixstatic.com/media/2c388f_f36ff080af054555bed1c171704d94a4~mv2.jpeg/v1/fill/w_333,h_250,fp_0.50_0.50,q_30,blur_30,enc_avif,quality_auto/2c388f_f36ff080af054555bed1c171704d94a4~mv2.webp)
![ChatGPT/LangChainによるチャットシステム構築[実践]入門のプログラムを試す](https://static.wixstatic.com/media/2c388f_f36ff080af054555bed1c171704d94a4~mv2.jpeg/v1/fill/w_454,h_341,fp_0.50_0.50,q_90,enc_avif,quality_auto/2c388f_f36ff080af054555bed1c171704d94a4~mv2.webp)
ChatGPT/LangChainによるチャットシステム構築[実践]入門のプログラムを試す
現在私は「LangChain」のプログラムに沼っており(若い人が使う言葉ですね)、今回は「ChatGPT/LangChainによるチャットシステム構築[実践]入門」を読んで、いろいろプログラミングをして楽しむことにしました。 今まで私は「製造業の生産管理システム」や「プログラム言語の構文解析システム」など、いろいろなプログラミングをしてきたのですが、生成AI分野のように完全な正解が無く、常にアップデートしていくスタンスのものは初めてで、とても興味深いです。 この書籍通りにプログラミングを進めてみたのですが、何度も失敗を繰り返し、何度も心が折れそうになりました。。。これから生成AI分野を目指す方々がこの書籍を読んで楽しくプログラミングができる一助になればと思い、記事の投稿をしました。 詳しくはQiitaの記事をご覧ください https://qiita.com/ogi_kimura/items/0559f7d8d91c9a010eda
たろう 木村
2024年12月8日読了時間: 1分
bottom of page