AIエージェントに「顔」と「声」と「個性」が生まれました。Pika Labsは2026年4月28日、新サービス「Pika Agents」を正式公開しました。ユーザー自身が作り上げる永続型AIエージェントで、テキスト・音声・動画を横断したクリエイティブな作業を、人間のパートナーと会話するように進められます。
この記事でわかること:
- Pika Agentsの概要と従来のAIツールとの違い
- 声・顔・個性を設定してエージェントを「育てる」仕組み
- 対応プラットフォームと使えるAIモデルの一覧
- リアルタイムビデオ通話を実現するPikaStream 1.0の技術概要
- 料金とAPIの利用方法
プロンプトボックスの終わり
Pikaのウェブサイトには「🪦 RIP Prompt Box」という一文があります。AIに指示を入力するたびにプロンプトを書き、ツールを切り替え、複数のサブスクリプションを管理するという作業への宣戦布告です。
Pika Agentsは、その煩雑さを取り除くために設計されました。プロンプトボックスではなく、会話によって創作を進めることが目標です。
Pika Agentsとは
Pika Agentsは、ユーザーが「生み出す」パーソナルなAIエージェントです。顔・声・個性・記憶を自分でカスタマイズして育て、Slack、WhatsApp、Discord、Instagramなど20以上のプラットフォームで横断的に動かせます。
従来のAIアシスタントと大きく異なる点は、エージェントがセッションをまたいで記憶を保持することです。前回の会話内容、好み、クリエイティブの方向性を引き継いだまま次の作業に入れます。テキスト・音声・画像・動画のすべてに対応しており、コンテンツ制作から業務タスクの自動化まで一つのエージェントで一気通貫できます。
PikaStream 1.0 — リアルタイムビデオ通話を支える技術
Pika Agentsの核にあるのが、2026年4月2日に発表されたリアルタイム動画生成モデル「PikaStream 1.0」です。
PikaStream 1.0は、480p・24FPSの動画をH100 GPU 1枚で生成し、発話から映像出力までの遅延が約1.5秒です。前世代モデル「Pikaformance」は8枚のGPUで4.5秒かかっていました。会話の間隔としては、4.5秒ではボイスメールを残すような感覚ですが、1.5秒ならFaceTimeに近い自然なやりとりができます。
技術構成は3コンポーネントです。FlashVAEはTransformerベースのVAEで、441FPS・1.1GBのメモリで480p動画をリアルタイムにデコードします。9Bパラメータの拡散トランスフォーマー(DiT)がテキストと音声から動画フレームを生成し、フレームごとに音声トークンと同期することで自然なリップシンクを実現します。Multi-reward RLHFにより、顔の一貫性・リップシンク精度・動きの自然さを直接最適化しています。
このモデルによって、Google MeetへのAIエージェントのリアルタイム参加や、通話中のタスク実行が可能になっています。
Pika Skills — エージェントに専門能力を追加する
Pika Skillsは、エージェントに組み込める専門スキル機能です。動画の自動編集、予算・ブランドを指定したカプセルワードローブの作成、カスタムステッカーの生成など、特定タスクに特化した能力を追加できます。
スキルの一部はGitHubで公開されており、外部エージェントに組み込むことも可能です(Pika-Skills)。新スキルは今後も継続的に追加される予定です。
対応するAIモデルと連携プラットフォーム
Pika Agentsは10種類以上のAIモデルを内部で使い分けます。動画生成ではSeedance 2.0、Kling Video、MiniMax Video、Pika Video、Veo 3 Video、Sora Video、Remotionが利用できます。画像生成ではChatGPT Images 2、Gemini Image、SeedDream Imageに対応します。音声ではElevenLabs、MiniMax Voice/Music、OpenAI Whisperを使います。複数サービスのサブスクリプションを個別に管理する手間がなくなります。
連携できるプラットフォームは、Slack、Telegram、WhatsApp、Discord、Signal、iMessage、Google Chat、X、Instagram、LinkedIn、YouTube、Notion、GitHub、Dropbox、Figma、Zoom など20以上です。新しいアプリを別途インストールする必要はなく、普段使いのツールの中でエージェントが動きます。
リアルタイム通話と電話対応
Google Meetにエージェントを招待するだけで、映像と音声によるリアルタイム会話ができます。通話中にタスクを依頼するとその場で実行されます。ZoomとFaceTimeへの対応も近日公開予定です。
エージェントには専用の電話番号も割り当てられており、その番号に直接電話することも、エージェントからかけてもらうこともできます。Pikaアプリ内でも音声通話が可能です。
料金とAPI
Pikaはトークン制を採用しています。初回利用時に無料トークンが付与されます。追加購入は以下の通りです。
- 800トークン:$7.99
- 2,000トークン:$19.99
- 4,000トークン:$39.99
- 8,000トークン:$79.99
- 15,000トークン:$149.99
iOS版アプリはApp Storeで公開中、Androidアプリは開発中です。Webアプリはpika.meで利用できます。
開発者向けAPIも提供しており、pika.me/dev/loginでAPIキーを取得すれば自作エージェントにPika Skillsを組み込めます。OpenClaw経由での統合にも対応しています。
まとめ
Pika Agentsは、AIエージェントとのインターフェースをプロンプトボックスから会話へ移行させる試みです。リアルタイム動画通話、20以上のプラットフォーム連携、10種類以上のAIモデルを一つのエージェントに束ねる設計は、個別ツールを複数管理する現状の代替として機能します。
創作・発信・業務自動化を一人でこなしているクリエイターや開発者にとって、試す価値のあるサービスです。
