GitHub - GitHubDaily/GitHubDaily: 坚持分享 GitHub 上高质量、有趣实用的开源技术教程、开发者工具、编程网站、技术资讯。A list cool, interesting projects of GitHub.

ai-comic-factory 一款开源免费的在线AI漫画生成工具,支持通过选择漫画风格、画面排版及输入文本提示词生成漫画面板,基于LLM和SDXL技术开发,可自定义选择LLM和图像生成模型,提供Hugging Face在线体验。 AI-Couplet 一款基于Claude API开发的AI春联生成工具,只需输入关键词即可快速生成上下联和横批,界面简洁且喜庆,完全使用字节跳动AI编程工具Trae实现。 gptme 一款功能强大的开源终端AI助手,可在终端执行本地代码、读写文件、搜索浏览网页及视觉识别操作,支持OpenAI、Anthropic等主流LLM提供商,也能通过llama.cpp实现本地服务。 zerox 一款简单易用的OCR文档工具,能够将PDF、Docx等文件一键转换为图像,再通过OCR识别图像信息,返回Markdown格式文件,提供在线体验地址并支持自行部署使用。 note-gen 一款专注于记录和写作的跨端 AI 笔记应用,将记录、写作与 AI 结合以快速整理碎片化知识并辅助完成完整笔记,提供支持大纲、数学公式、图表及流程图等功能的 Markdown 编辑器。 RealtimeSTT 一款强大高效的语音转文本工具,支持开始和停止说话状态监测、指定唤醒词触发工作及实时语音转换文本,具有低延迟、转录速度快且准确率高的特点,兼容 Windows 和 macOS 系统。 LazyCat-Bookmark-Cleaner 一款专注于书签管理的AI工具,支持一键清理失效、重复书签及空文件夹,提供分类统计、访问频率分析和整理建议,所有功能均在本地运行,无需上传数据到服务器以保障安全隐私。 fullmoon-ios 一款用于与本地大模型聊天对话的应用,无需注册直接使用,本地离线运行且响应速度快,聊天记录本地存储保障安全隐私,支持自定义主题、字体及提示词,目前兼容Llama 3.2 1B和Llama 3.2 3B模型。 openai-edge-tts 一款利用微软Edge在线语音服务的开源免费文本转语音API。提供文本转语音功能,可像OpenAI语音一样使用,支持mp3、aac等多种音频格式,能自由调节播放速度。 agent-service-toolkit 一款用于快速构建完善AI智能体服务的工具包,集成LangGraph Agent、FastAPI服务和Streamlit应用等工具,并提供模板,助力用户轻松构建和运行专属Agent。 company-researcher 一款GitHub上的开源AI工具,输入公司网站链接即可从互联网全面收集该公司信息,包括组织架构、产品、融资情况及官方媒体账号等。 RTranslator 一款可离线使用的实时翻译AI工具,支持将对方语言实时翻译成用户听懂的语言实现同声传译,提供对话、对讲及文本翻译三种方式,模型存储在本地。 nv-ingest 一款用于大规模文档信息提取及结构化处理的工具,支持解析PDF、Word和PPT等格式,可提取文本、表格、图表及图像,通过OCR将内容转换为结构化JSON格式并存储到向量数据库。 Riona-AI-Agent 一款社交媒体自动化工具,可完成登录、点赞、转发、发布帖子及回复评论等日常运营操作,支持基于账号历史数据微调训练个性化角色。 Resume-Matcher 一款基于AI的简历优化工具,根据职位描述定制优化简历、识别匹配关键词、提升简历可读性,并提供深度完善功能。 ebook2audiobookXTTS 一款电子书转有声书的开源AI工具,集成Calibre、XXTSv2等工具实现电子书一键转换,支持语音克隆和1107种语言,可处理epub、pdf、mobi等20种格式。 FitDiT 一款GitHub上的高保真AI虚拟试穿开源模型。支持控制上半身、下半身或全身虚拟更换服装,可自动生成区域蒙版实现一键试穿,服装细节保留较好。 Ollama-OCR 一款可离线使用的强大OCR工具,通过搭配Ollama在本地运行,支持LLaVA 7B、Llama 3.2 Vision等多种视觉模型,可输出Markdown、纯文本、JSON等多种文件格式并支持并行处理多个图像。 khoj 一款助力构建个人第二大脑的AI工具,能结合上传的本地文件与互联网信息提供准确相关回答,支持本地和在线LLM模型如Llama 3、Qwen、ChatGPT。 ai-renamer 一款基于 Ollama 本地模型的文件批量重命名工具,可智能识别指定目录下文件、图像或视频内容并自动化重命名,支持 Gemma、Llama 等模型及语言、定制等自定义参数。 amurex 一款提升会议效率的AI工具,支持实时建议、会议转录与总结、一键发送邮件等功能,可无缝集成现有工作流程,通过Chrome插件安装,目前仅适配Google Meet平台。 Gemini-Search 一款基于 Google 搜索的开源搜索引擎,可实时获取搜索内容并利用 Gemini 进行总结,采用简洁界面清晰展示相关内容及来源。 PRIME 一个基于强化学习技术的AI项目PRIME,仅用8张显卡短时间内训练出7B模型,在数学推理能力上超越GPT-4o及Llama-3.1 70B,还提出能在不依赖高质量数据的情况下显著提升模型推理能力的算法。 browser-use-webui 一款基于Browser Use优化开发的AI智能体浏览器自动化工具,提供简单易用的可视化WebUI操作界面以实现与浏览器交互完成复杂自动化任务,支持Gemini、OpenAI、DeepSeek等更多大语言模型。 miniperplx 一款基于AI的开源搜索引擎,集成Claude/Grok AI及多种API,实现天气查询、代码运行、地图导航等功能,提供精简界面以清晰展示查找内容。 gitingest 一款帮助快速了解开源项目的工具,输入GitHub链接即可自动总结并生成易于LLM读取的Markdown文本,包含项目概括、目录结构和README内容等。 GenAI_Agents 一份面向生成式AI智能体构建的学习指南,包含40+从基础到复杂场景的构建案例,如简单问答、旅程计划、合同分析和联网查询总结等,并提供详细文档及实现教程。 crawl4ai 一款简单易用高效的网页爬虫开源工具。只需输入网页链接即可爬取并输出适合训练LLM的数据格式,速度快、反爬能力强,支持抓取多个URL及提取图像、音频、视频等媒体数据。 papermark 一款DocSend的开源平替文档分享平台,提供安全的文档共享、AI分析、访问追踪及数据导出功能,支持自定义品牌展示与自部署,且开源无功能限制。 OpenHands 一个基于AI驱动的软件开发多智能体平台,由多个智能体组成“AI程序员”,能执行代码修改、命令运行、网页浏览、API调用及从StackOverflow复制代码片段等开发任务。 open-canvas 一款支持主流LLM与本地模型的开源AI交互界面,内置记忆功能以记住使用习惯与风格,兼容Claude、Gemini、ChatGPT及Ollama模型。 harbor 一款容器化LLM工具箱,通过简单命令即可安装运行各类LLM后端、API、前端及相关服务,集成Open WebUI、ComfyUI、Ollama、Dify等工具,并支持自动下载模型与自定义配置。 VideoFusion 一款面向无经验视频创作者的一站式视频批量处理工具,实现视频预处理无需关心复杂参数,具有自动去黑边、智能拼接、补帧、调整分辨率、白平衡、AI音频降噪和批量处理多个视频功能。 prompt-optimizer 一款用于优化和测试AI提示词的工具,支持Web应用和Chrome插件两种使用方式,可一键优化提示词并进行多轮迭代改进,提升AI回复的准确度。 ai-trend-publish 一款基于 AI 的趋势发现和内容发布系统,支持多源数据采集(Twitter/X、网站内容)与 AI 智能处理,可将内容自动发布到微信公众号,适合自动化内容创作的运营者。 aibrix 一款企业级云原生 GenAI 推理基础设施构建工具,提供大型语言模型推理部署、管理和扩展的完整解决方案,具备高密度 LoRA 管理系统和 LLM 网关及路由功能。 EPLB 一款专注于解决MoE模型训练负载均衡问题的工具,通过复制高负载专家并启发式打包到不同GPU实现负载平衡,基于冗余专家策略,结合组限制专家路由技术减少节点间数据传输,提供层次化和全局两种负载均衡策略以适应不同场景。 DualPipe 一款用于大规模AI模型训练的双向流水线并行算法,解决训练核心效率问题,通过创新调度策略完全重叠前向和后向计算-通信阶段,同时减少流水线气泡。 prompt-kit 一款专为AI应用设计的高质量UI组件库,可快速构建聊天体验、AI智能体和自主助手等应用,提供美观且可自定义的界面组件,包含可自定义的AI提示输入组件和聊天消息展示组件。 Awesome-Ollama-Server 一款用于监控和检测Ollama服务的系统,支持批量检测服务、实时显示状态和结果、自动FOFA扫描功能,提供现代化Web可视化界面及中英文多语言支持。 claude-code 一款在终端中运行的AI编程助手Claude Code,支持理解和操作本地代码库,能执行基本编码任务、解释代码逻辑、处理Git工作流程、回答架构问题、执行修复测试及代码格式化。 R1-Onevision 一款开源的多模态大语言模型,能够进行深度推理,尤其擅长视觉推理任务,并在数学、科学、图像理解和逻辑推理等多个领域表现出色,在多项推理基准测试上超越了Qwen2。 SurveyX 一款基于大语言模型的GitHub开源学术工具,能根据论文标题或关键词生成高质量学术论文和调研,提供30+个涵盖计算机视觉、医学影像等领域的已生成论文示例。 deepchat 一款简洁易用的DeepSeek第三方开源客户端,支持DeepSeek、硅基流动、Ollama等多个模型云服务商及多路聊天并发,具备完整的Markdown渲染与代码高亮显示功能。 apple-mcp 一款适用于MCP协议的苹果原生工具集,通过少量代码添加到Claude桌面配置,即可授予访问苹果原生工具的权限,目前已支持联系人、消息和笔记等功能,未来将扩展日历、提醒实现等工具。 llm-scraper 一款基于 LLMs 的网页数据提取工具,能够从任何网页中提取结构化数据,支持 Ollama、OpenAI 等 LLM 提供商及 html、markdown、text、image 等多种输入格式,并支持流式传输对象。 DeepSeek 一款GitHub开源的第三方DeepSeek iOS客户端。集成DeepSeek模型能力,支持实时对话、多轮交互、历史记录管理和自定义提示词,还具备多主题、消息本地存储、实时输入及消息复制功能。 AstrBot 一个松耦合的多平台LLM聊天机器人及开发框架,支持OpenAI、Gemini等多种大语言模型接入,具备异步处理能力、多消息平台部署支持和易用的插件系统。 aigcpanel 一款简单易用的一站式AI数字人系统,支持视频数字人合成、语音合成与克隆,可实现视频画面和声音换口型匹配,简化本地模型管理并支持一键导入和使用AI模型。 DeepSeek-RAG-Chatbot 一款开源免费的离线高级RAG对话工具,能从PDF、DOCX和TXT文件中快速准确检索信息,集成DeepSeek、GraphRAG等技术,具备聊天历史记忆和改进的错误处理机制。 DeepEP 一个用于混合专家模型训练和推理的专家并行通信库,提供高效优化的all-to-all通信能力,同时支持节点内NVLink和节点间RDMA通信,具备高吞吐量的训练与推理解预填充内核及低延迟的推理解内核。 anx-reader 一款开源免费的电子书阅读器,支持EPUB、MOBI等主流格式,具备现代化界面设计和多种AI能力,可通过WebDAV实现跨设备同步阅读进度,提供智能专注的纯粹阅读体验。 mastra 一个用于快速构建AI应用的TypeScript开发框架,集成Agents、Tools、Workflow、RAG及评测等常用工具,可直接使用以提升开发效率。 arxiv-mcp-server 一款用于轻松访问和搜索arXiv论文的MCP服务器。支持按日期范围和类别筛选搜索论文,能下载并读取论文内容,为AI助手提供快速检索和完整访问能力。 paper_to_podcast 一款能将学术论文转换为AI播客的开源工具,只需提供PDF学术论文即可转化为三人对话的播客形式,部署简单,需配置OpenAI API密钥并运行Python脚本。 vibe-draw 一款简单易用的3D建模工具,支持自由绘制2D草图并一键转换为3D模型,具备AI辅助优化草图以提升细节与质量的技术特点。 ruoyi-ai 一款一站式AI助手平台搭建的开源解决方案,包含前端应用、后台管理及小程序等全套系统,开箱即用,并基于MIT协议开源可自由商用。 ClaudeComputerCommander 一款让Claude桌面应用具备终端命令执行与文件编辑能力的MCP服务器。通过模型上下文协议让Claude执行终端命令、管理进程,提供文件编辑和搜索替换功能,可通过Smithery、npx一键使用。 star-vector 一款专注于SVG图像生成的多模态视觉语言模型,支持通过文本或图像生成SVG代码,在图标、Logo、图表生成方面表现出色,提供1B和8B参数两种版本并发布于HuggingFace。 pdf-craft 一款专注于扫描书籍处理的开源PDF转换工具,能提取正文、过滤页眉页脚并处理跨页连接,使用本地AI模型将PDF转换为Markdown或带结构的EPUB电子书,无需联网。 ClaraVerse 一款隐私优先的AI助手和智能体构建开源工具,能在本地设备使用开源模型进行AI聊天、创建智能体并转换为功能完整的应用,所有数据在本地处理不离开设备以实现隐私保护。 gurubase 一款可基于任何内容创建的AI问答助手,支持添加网页、PDF、视频和GitHub仓库作为知识源,能构建专业问答助手并嵌入网站或与Slack、Discord集成,支持实时更新数据源。 docling 一款文档处理开源框架,支持PDF、DOCX、XLSX、HTML、图片等多种格式解析,可与主流生成式AI框架无缝集成,支持本地执行以保护敏感数据。 XianyuAutoAgent 一款面向闲鱼店铺运营的开源工具,实现24小时自动化值守的AI智能客服系统,支持上下文感知对话、多专家协同决策和智能议价功能。 YT-Navigator 一款用于高效搜索和浏览 YouTube 频道内容的开源工具,通过聊天对话搜索视频特定信息并跳转相关时间点,支持对频道内容进行语义搜索以快速定位相关视频片段。 MagicQuill 一款GitHub上的交互式图像编辑AI工具,通过简单笔画和提示词实现添加元素、移除物体、画面调色等编辑任务,提供拖拽、旋转、调整画笔大小等画布工具集并支持不同绘画模型选择。 my-yt 一款基于 yt-dlp 开发的 YouTube 第三方 Web 客户端。界面干净简洁无广告,支持频道订阅、视频下载与离线播放、自动移除赞助内容,可集成本地 AI 模型对视频进行总结概要,通过 Node.js 或 Docker 部署。 mlx-lm 一款适用于Apple芯片的大模型处理Python工具包,支持文本生成和模型微调,与Hugging Face Hub集成,可通过单条命令调用数千个大语言模型。 easy-dataset 一款大模型微调数据集创建工具,提供直观界面支持文件上传与智能内容分割,可自动生成问题及高质量训练数据,支持导出Alpaca、JSON等多种格式并兼容OpenAI格式。 ReasonGraph 一款大模型推理过程可视化工具,能直观展示和分析多种推理方法的执行过程,让模型推理变得透明可解释。 markpdfdown 一款基于多模态大语言模型的PDF转Markdown工具,支持PDF文档格式转换并完整保留表格、公式等复杂排版元素,利用AI技术理解文档结构,支持自定义模型参数配置和指定页码范围转换。 tools 一款由国外开发者Simon借助AI构建的前端工具集,包含多种实用的HTML+JavaScript小工具,开发者详细记录了利用LLM快速构建工具的过程。 SoftWhisper 一款高效便捷的音频转文字工具,基于Whisper.cpp实现,依赖极少且支持CPU+GPU加速,大幅提升转录速度,相比OpenAI的Whisper快数十倍,2小时音频仅需2-3分钟即可完成转录。 Coze-on-Wechat 一款将Coze平台AI机器人快速接入微信的开源工具,支持文本聊天、语音交互及插件功能,提供Web后台管理界面以便配置和管理机器人。 MaxKB 一款开源的AI知识库问答系统,支持上传PDF、Word文档或输入网址一键爬取并自动处理生成问答能力,能精准理解问题并给出完整解答,可接入DeepSeek R1、Llama 3、OpenAI等多种大模型以满足隐私和成本需求。 Sidekick 一款适用于 Mac 的本地 AI 助手,支持从文件、文件夹和网站中获取信息与本地 LLM 聊天,所有对话在离线环境中运行以保证数据安全。 local-deep-research 一款可本地运行的AI研究助手,能执行深度、迭代式研究分析,支持多种LLM和网络搜索,既保障隐私又提供强大研究能力。 mcp-playwright 一款为大模型提供浏览器自动化能力的工具,实现智能AI网页浏览和操作,通过模型上下文协议(MCP)服务器让LLM可与网页交互、截取屏幕截图并在真实浏览器环境中执行JavaScript。 Open-Sora 一款开源的SOTA视频生成大模型,可生成720p高分辨率和24 FPS流畅视频,采用3D全注意力机制与MMDiT架构,通过高效训练方法降低5-10倍成本,推理时间缩至单卡3分钟内,动作可控且场景切换效果丰富。 blender-mcp 一款基于MCP的AI辅助3D内容创作工具,可让Claude直接操控Blender自动进行3D建模、场景创建和模型操作,实现Claude AI与Blender的双向通信。 agents 一款用于构建智能有状态AI智能体的开发框架,支持状态管理和持久化内存,让AI智能体能够在网络边缘持久化存在、思考和进化。 hipixel 一款专注于工作流效率和macOS原生体验的AI图像超分辨率工具。提供高质量AI图像放大功能,支持多种图像格式,采用SwiftUI界面打造原生macOS应用程序。 rlama 一款本地文档智能问答工具,可无缝集成本地Ollama模型创建、管理和使用RAG系统,支持文本、代码及各类办公文档格式,实现对文档的智能问答。 story-flicks 一款基于AI技术的故事场景视频生成工具,根据输入的故事主题自动生成完整视频,包括故事内容、图片、音频和字幕,支持多种文本模型。 mcp-server-chatsum 一款结合MCP协议的微信群聊消息总结工具,通过wechaty实时收集并存储微信消息,支持查询和总结群聊历史记录,以Claude桌面版作为交互入口。 botgroup.chat 一款基于 React 和 Cloudflare Pages 构建的 AI 聊天应用,支持多个 AI 角色同时参与对话,提供类似群聊的交互体验,可轻松创造多角色对话场景。 nanobrowser 一款可作为OpenAI Operator开源平替的AI网页自动化工具,通过多智能体系统协作完成复杂网页操作,支持在浏览器本地运行并提供灵活的LLM选项。 autoMate 一款AI驱动的本地自动化开源工具,通过自然语言描述任务实现电脑界面自动操作,完成复杂工作流程,无需编程知识,融合AI与RPA技术。 fastrtc 一款用于实时通信的Python库,内置语音识别和自动对话管理功能,可一键生成用户界面并轻松接入网页通信技术,帮助开发者专注核心功能设计而无需处理底层通信细节。 ai-hedge-fund 一个用于教育目的的AI驱动对冲基金概念验证项目,通过11个不同角色的AI智能体协同工作模拟投资决策过程,包含知名投资者、技术分析、基本面分析等智能体。 klee-client 一款安全且本地化的AI桌面应用,内置RAG知识库和Markdown笔记支持,可在本地运行开源大模型,实现完全离线使用且零数据收集以保护隐私安全。 ComfyUI-RMBG 一款基于 ComfyUI 的背景移除插件,支持物体、人脸、服装和时尚元素精准分割,整合 RMBG-2.0、BiRefNet、SAM 等先进模型,可批量处理并自由调整敏感度、分辨率、模糊度等参数。 storm 一款来自斯坦福大学开源的创新型AI写作工具,输入主题后可自动深挖资料、生成大纲,模拟资深专家问答对话并结合联网资源,逐步完成带引用的文章撰写且支持PDF一键下载,目前仅支持英文输入。 chat-with-audios 一款基于音频文件构建的RAG应用项目,可快速将音频文件转为文本并支持AI问答,利用AssemblyAI和DeepSeek R1技术帮助从录音、播客等音频内容中提取所需信息。 composio 一款用于快速构建AI智能体的工具包,集成GitHub、Notion等250余种工具及系统操作、全网搜索功能,支持OpenAI、Claude、LlamaIndex、Langchain等主流AI框架,提供Python和JavaScript支持。 paperless-ai 一款为Paperless-ngx文档管理系统提供AI支持的工具,可自动或手动分析文档并添加标题、标签和分类等元数据,支持与文档AI聊天提问及Ollam。 ollama-for-amd 一款基于官方 Ollama 修改的开源项目,增加对更多 AMD 显卡的支持,快速启动并运行 DeepSeek、Llama 3、Gemma 等大模型,兼容 gfx803、gfx908、gfx90c、gfx1011、gfx1032、gfx1100 等型号。 writing-helper 一款基于GitHub开源的AI写作助手,通过输入主题、关键词和字数控制生成符合要求的文章,支持自定义写作风格提示词、实时预览编辑及OpenAI、Claude、Gemini等主流AI模型。 yogu-chat-app 一款简洁且功能丰富的 AI 聊天桌面应用,支持网络搜索、聊天历史管理、多语言、文件上传及多主题切换,基于 Tauri 和 Vue 3 构建,已集成 Anthropic、OpenAI、Google 等 AI 模型提供商并处于快速迭代开发中。 viral-predictor 一款面向自媒体创作者的社交平台爆款帖子预测工具,能在发布前通过AI模拟大量用户对不同A/B版本内容的可能反应,给出点赞、评论、分享等互动指标及统计置信度评分。 MTranServer 一款超低资源消耗的离线翻译服务器,支持全世界主要语言翻译且质量与Google翻译相当,仅需CPU加1G内存即可运行,无需GPU并提供Docker支持。 shandu 一款基于 LLM 和网络爬虫技术的 Deep Research 开源平替工具,对任意主题进行全面研究并自动生成包含完整引用的综合报告,具备迭代深入探索主题、智能评估信息源可靠性和多渠道信息整合分析能力。 instructor 一款帮助开发者从大语言模型获取结构化数据的 Python 库。可轻松管理 LLM 输出的验证、重试和流式响应,基于 Pydantic 构建,支持自定义输出结构及 OpenAI、Anthropic 和 Gemini 等多种 LLM。 code2prompt 一款用于代码库转换的开源工具,可快速遍历项目目录构建树结构并收集文件信息,自动生成格式化Markdown提示词文档,支持通过Handlebars模板自定义提示内容。 gitpodcast 一款能将GitHub项目转换为播客的开源工具,只需提供GitHub URL链接即可一键生成有声解读以帮助快速理解代码库内容,支持通过Gemini Flash和Azure Speech SDK免费使用并快速生成和自定义语音。 AingDesk 一款本地AI模型部署工具,能一键部署DeepSeek等上百款AI模型到本地电脑,内置聊天界面且可在线分享,支持网络搜索和动态数据获取,兼容Windows和macOS系统。 cognita 一款基于 LangChain 和 LlamaIndex 构建的开源低代码 RAG 框架,提供数据上传、模型管理、联网和提示词模板功能,无需编写代码即可构建、调试和发布 RAG 应用,支持通过 Docker 快速部署及主流大模型。 langgraph-swarm 一款用于实现多AI智能体协同工作的Python库,能让多个智能体根据自身专长自动接手对话,实现智能体间的动态切换与无缝衔接,支持短期和长期记忆功能以确保对话连贯性。 WhisperChain 一款GitHub上的实用工具,实现实时语音转文字并自动润色转录文本质量,可将转换后的文本复制到剪贴板,有助于节省打字时间、提升工作效率。 probly 一款面向数据分析的智能电子表格工具。能一站式完成数据处理全过程,通过AI自动分析数据并生成图表,功能比Excel更强大。 ai2-scholarqa-lib 一款专为科学查询和文献综述设计的RAG系统,帮助研究人员从多篇文档中检索证据并合成组织良好的报告以快速获取有依据答案,结合语义检索与关键词搜索构建高效检索组件。 mcp-obsidian 一款连接Claude Desktop与Markdown笔记目录的工具,允许Claude Desktop或任何MCP客户端读取并搜索包含Markdown笔记的目录,特别适用于Obsidian知识库。 repomix 一款将代码库打包成AI友好格式的高效工具,能一键将整个代码仓库打包成单个文件便于输入到大型语言模型中分析处理,支持遵循.gitignore规则、远程仓库处理和Token计数等功能。 manga-image-translator 一款针对漫画图片的翻译工具,支持日语、汉语、英文和韩语一键翻译,具备图片修补和嵌字功能,特别适合处理大量漫画图片的文字翻译需求。 mcp-send-email 一个基于 Resend API 的模型上下文协议(MCP)案例,实现 Cursor 或 Claude 撰写邮件后一键发送功能,无需复制粘贴内容,适合 MCP 学习上手。 Leffa 一款来自Meta开源的可控人物图像生成框架,能够统一处理虚拟试衣和姿态迁移任务,实现精确控制人物外观和姿势并减少细节失真,支持float16推理加速且在A100 GPU上仅需6秒生成一张图像,提供Gradio界面。 screenpipe 一款面向企业管理者的开源监控工具,可24小时录制电脑屏幕、语音、键盘、鼠标及摄像头数据并保存至本地数据库,通过AI助手实现对话交互以总结和回顾电脑操作记录。 PageTalk 一款便捷的浏览器AI插件,能自动提取当前网页内容作为上下文,支持一键总结关键信息和上下文对话提问,可自定义多种AI助手。 subtitle-translator 一款开源的批量字幕翻译工具,具备秒级翻译能力,支持多种翻译接口和.srt、.ass、.vtt等格式,可将同一字幕文件同时翻译成多达35种语言。 mcp-gateway 一款帮助现有 API 快速对接 MCP 协议的开源工具,无需改动代码即可将 API 转化为 MCP 服务,实现与 Claude 等 AI 助手的无缝对接。 bilive 一款B站直播录制开源工具,支持7x24小时自动录制直播和弹幕,通过AI识别语音生成字幕、根据弹幕密度切片高能片段并生成标题和封面,全程无需人工干预且对电脑配置要求极低。 Step1X-Edit 一款功能强大的开源图像编辑模型,只需简单指令即可完成复杂编辑任务,能准确理解指令和参考图像,提供可媲美闭源模型的编辑效果。 Kimi-Audio 一款音频基础模型,能同时处理音频理解、生成和对话。基于Kwen 2.5 7B模型构建,实现高质量文本输出与自然语音生成,解决处理音频时来回切换不同工具的痛点。 open-codex 一款可完全离线运行的开源终端AI助手,通过自然语言生成Shell命令,使用phi-4-mini等本地模型,无需网络和API密钥,能有效保障数据安全。 mcp-containers 一款解决MCP服务器安装配置难题的Docker镜像打包项目,将数百个常用MCP服务器打包成即用即取的Docker镜像,支持一键部署、自动更新、安全隔离和丰富文档,可直接部署各种AI能力扩展的MCP工具。 mad-professor-public 一款面向学术阅读的AI辅助工具,能自动处理PDF论文并提取、翻译、结构化内容,提供中英文对照阅读、智能问答、语音交互和分屏界面,以幽默风格提升阅读效率,需6GB以上显存运行。 suna 一款通过自然对话完成信息处理的工具,整合浏览器自动化、文件管理、网络爬虫及API集成功能,支持复杂工作流程自动执行,所有操作在隔离Docker环境中进行以保障安全。 ElatoAI 一款让玩具具备语音交互和情感能力的开源方案,基于ESP32微控制器和OpenAI Realtime API开发。支持10分钟以上连续自然对话,可自定义AI角色性格与声音,采用加密WebSocket传输和Deno Edge Functions实现全球低延迟响应。 droidrun 一款Android自动化工具,通过自然语言命令控制设备。支持多种大模型作为决策大脑,提供命令行界面和Python API接口,具备截图分析功能,可实现UI测试和日常任务自动化。 exa-mcp-server 一款为AI助手提供实时信息获取能力的MCP服务器。让Claude等AI可直接进行网页、学术论文、Twitter等多类型搜索,提供结构化结果与实时内容爬取,支持特定网址内容提取及搜索缓存以提升响应速度。 claude-task-master 一款辅助开发者使用AI进行项目开发的工具,能让Claude像项目经理一样自动拆解PRD生成任务列表并追踪进度,管理任务依赖关系,支持在编辑器中通过自然语言沟通开发流程,可整合进现有开发工作流降低AI使用门槛。 LLPlayer 一款专为语言学习设计的视频播放器,提供双语字幕同屏显示、AI实时生成字幕、实时翻译和即时查词等功能,支持多种翻译引擎和上下文感知翻译,无需中断视频播放即可轻松学习外语。 secretary 一款社交媒体内容分析AI工具,支持自动抓取监控Twitter和Truth Social指定账号最新内容,通过AI分析并将结果推送至企业/个人微信,可配置多个监控账号和分析参数。 hyprnote 一款基于开源模型的会议笔记AI工具,可自动录音、转录会议内容并结合要点生成高质量总结,使用Whisper和Llama模型完全离线运行,所有数据本地存储保障安全隐私,并提供类似VSCode的扩展框架支持自定义需求。 austen 一款由AI驱动的书籍角色关系可视化工具,能自动分析书籍人物关系并生成交互式图谱,支持搜索Open Library书籍、生成Mermaid图表及保存下载功能,提供本地部署方式。 dia 一款超逼真的文本转语音生成模型,能直接从文本生成高度逼真的对话,支持控制情感和语调,可生成笑声、咳嗽等非语言声音,仅1.6B参数。 webvm 一款运行在浏览器中的Linux虚拟机,无需安装软件即可使用完整Debian系统及原生开发工具链和图形环境。基于HTML5/WebAssembly构建,提供Linux ABI兼容、Tailscale网络支持、Dockerfile自定义部署、Claude AI集成和客户端安全沙盒环境。 mcp-server-browserbase 一款用于AI控制浏览器的MCP服务器,支持创建管理云浏览器会话、网页导航、内容爬取、截图及表单填写等操作,能让Claude等AI直接操控网页浏览器完成多种交互任务。 no-ocr 一款无需传统OCR技术的AI文档处理工具。用于上传和管理PDF文档集合,支持按"案例"分类组织,通过LanceDB实现基于向量的页面和图像搜索,借助Qwen2-VL进行视觉问答,具备文本与视觉查询的混合搜索能力。 langgraph-mcp-agents 一款AI智能体开发工具,通过可视化界面动态配置MCP工具与数据源,支持实时流式响应显示、历史对话管理及多模型集成,提供Docker一键部署和Jupyter教程辅助理解集成原理。 BitNet 一款微软开源的高效推理框架,可直接在CPU上运行1-bit模型推理,提供多种优化内核实现快速无损推理,使模型速度提升1.37-6.17倍且能耗降低高达82.2%,支持单CPU运行100B规模模型。 WatermarkRemover-AI 一款开源免费的AI水印移除工具,支持单张及文件夹批量处理图片水印。结合Florence-2精确水印检测与LaMA模型上下文感知修复技术,能智能识别并自然去除各类水印,可自定义检测参数及输出格式,提供GUI与命令行两种使用方式。 inbox-zero 一款基于AI的开源邮件管理工具。通过智能分类、自动处理功能帮助用户达成“零收件箱”目标,支持自定义提示词管理邮件、回复追踪、批量退订、冷邮件拦截及邮件活动统计分析,提供Vercel一键部署和自托管指南。 FramePack 一款高效的视频生成框架,能从单张图像逐步生成视频,采用下一帧预测结构技术,使用13B模型在6GB显存下以30fps生成1分钟视频,RTX 4090上最高每帧生成速度1.5秒。 git-mcp 一款用于项目开发的MCP服务器,能根据项目代码生成详细使用教程文档,通过主流MCP客户端获取开源项目部署教程和代码,防止原README文件内容未及时更新,完全开源免费且配置简单。 BiliNote 一款开源的AI视频笔记助手,输入视频链接即可自动提取内容并生成结构清晰的Markdown笔记,支持插入视频截图和跳转指定进度,目前已兼容B站、YouTube等平台。 spotify-mcp 一款用于 Claude 控制 Spotify 的 MCP 服务器,支持播放、暂停、跳过音乐等操作,可搜索歌曲、获取播放列表及音乐专辑、艺术家信息,通过简单配置 API 密钥即可快速接入使用。 llama-4-researcher 一款基于Llama 4的AI研究助手,能快速将主题转化为结构完整的文章,支持自动扩展查询并深度搜索获取最新资料,具备安全检查和信息相关性评估功能。 codex 一款轻量级的终端编码助手,允许在终端通过自然语言完成代码编写、文件操作和迭代开发,所有操作在版本控制下进行,具备全自动审批功能,运行于网络禁用和目录沙箱环境以确保安全。 mcp-scan 一款专为MCP服务器设计的安全扫描开源工具,能自动检测提示词注入、工具中毒和跨域提权攻击等常见安全漏洞,支持扫描Claude、Cursor、Windsurf等多种基于文件的MCP客户端,确保AI工具安全使用。 Tutorial-Codebase-Knowledge 一款面向代码学习的开源AI工具,能爬取GitHub仓库构建知识库,分析代码识别核心概念及交互,将复杂代码转化为初学者友好教程并生成结构可视化,已成功应用于FastAPI、Flask等流行仓库。 index 一款开源自动化浏览器智能体Index,无需编写代码脚本,简单描述任务需求即可执行复杂网页操作。基于Claude 3.7 Sonnet提供AI能力,后续将支持更多模型,提供API和可视化UI界面,支持自托管部署,能完成数据收集、表单填写和内容分析等任务,还可自定义浏览器窗口大小和远程CDP连接。 ableton-mcp 一款连接Claude与Ableton Live的音乐制作工具,通过聊天对话方式实现音乐创作,支持轨道创建、修改和MID操作,能减少大量重复性编辑工作。 OmniSVG 一款高质量SVG矢量图生成模型,实现从简单图标到复杂动漫角色的生成,支持文本到SVG、图片到SVG及角色参考SVG三种模式,相关论文介绍和训练数据集已发布。 aginews 一款自动化收集前沿AI信息的开源工具,每天自动在网上搜索收集最新AI信息并整理总结成简报推送,基于Firecrawl构建。 sitemcp 一款用于简化网站内容交互的开源工具,能一键抓取整个网站内容并转化为MCP服务器,支持并发设置提高抓取速度、多种工具命名策略、路径匹配和内容选择器功能,可通过命令行安装并无缝集成到MCP客户端。 meeting-minutes 一款用于会议场景的AI助手,能实时捕获会议音频、进行转录并生成摘要,无需服务器所有处理在本地完成确保数据隐私安全。 WeClone 一款基于微信聊天记录微调大模型的数字人分身解决方案,可克隆个人对话风格,支持微信语音消息结合Spark-TTS实现高质量声音克隆,并能绑定微信机器人过滤敏感信息进行日常聊天。 Yuxi-Know 一款强大的知识库与知识图谱问答系统,能通过自然对话智能检索文档知识并得到精准答案,结合了大模型RAG技术与知识图谱技术,支持多种大模型包括OpenAI及国内主流平台。 DevDocs 一款专为程序员打造的文档爬取和处理工具。能够自动爬取、提取并组织技术文档,支持1-5层深度网站结构爬取、自动发现链接和子URL、并行处理与智能缓存,可干净提取内容并以MD和JSON格式导出,还内置MCP服务器便于集成AI应用实现对话查询文档。 5ire 一款高颜值且功能强大的AI助手应用,支持多种主流AI模型和MCP工具数据源连接,具备本地知识库、提示词库及详细API使用分析功能。 KrillinAI 一款本地化AI视频处理工具,集视频翻译、配音、语音克隆功能于一身,支持横竖屏格式适配多平台发布,具备一键启动和自动安装依赖的便捷特性。 nano-aha-moment 一款用于LLM强化学习的高效训练库,支持类似DeepSeek R1-zero风格的全参数微调,仅需单个80G GPU和3B基础模型,无需额外RL库且训练过程不到10小时。 Versatile-OCR-Program 一款专为机器学习优化的OCR工具,能精准提取复杂结构化数据,支持多语言文本、数学公式、表格、图表和示意图的识别,并为提取的元素添加语义标注和上下文解释。 mav 一款用于可视化大模型内部运作的开源工具,通过交互式终端界面实时展示LLM生成文本时的内部状态,包括注意力分布、MLP激活值和Token预测概率,支持插件扩展功能及多种模型。 onefilellm 一款高效的数据聚合开源工具,能够自动提取并整合网页、GitHub仓库、ArXiv论文和YouTube视频等来源内容为单一文件并复制到剪贴板,支持多种文件格式处理、网页爬取、Sci-Hub集成及文本预处理以提高LLM处理效率。 BabelDOC 一款用于PDF科学论文的翻译工具,能在保留原文排版的同时提供双语对照,支持复杂论文中的数学公式、表格和图形,安装使用简单。 meridian 一款专为筛选重要前沿AI信息设计的开源工具,能够从数百个新闻源抓取内容并分析信息,为用户提供个性化的每日简报。 OpenDeepSearch 一款高效的开源AI搜索工具,提供深度语义搜索服务,利用Crawl4AI和语义搜索重排模型增强搜索结果,在复杂查询场景中表现超越GPT-4o Search。 audiblez 一款开源免费的电子书转有声书工具,能将epub电子书快速转换成m4b格式有声书,支持9种语言、50多种语音选择、自定义朗读速度和章节,具备CUDA加速功能且兼容多系统。 DeeplxFile 一款简单易用的文件翻译工具,支持超长文本和复杂文档翻译,尤其擅长处理超大Excel文件并正确显示引用公式,还能将翻译后的PDF一键转换为可编辑docx文档,提供开箱即用的安装包,支持Windows和macOS系统,基于Deeplx/playwright实现,可选用DeepL及主流大模型作为翻译源。 SpendSmart 一款由国外14岁学生开发的iOS应用SpendSmart,通过拍照自动识别收据上的店名、地址、商品详情、总金额、支付方式和时间等关键信息,基于Gemini 2.0 Flash模型实现自动记账功能。 oba-live-tool 一款专为直播电商打造的自动化助手,支持抖音、快手、小红书等主流平台,能多账号管理并为不同直播间配置差异化设置,具备自动发送消息、弹出商品讲解及AI智能回复功能。 japanese-analyzer 一款面向日语学习者的句子分析工具,能智能解析词汇词性、变形及释义,提供OCR图片识别、语音朗读和整句翻译对照功能,基于Gemini 2.5 Flash模型开发,具备流式响应处理能力和自定义API配置灵活性。 shotgun_code 一款辅助技术小白与AI协作的代码处理工具,能一键扫描项目文件夹生成结构化代码文本,支持交互式排除无关内容和标准化分隔符格式,提供跨平台安装包和可视化界面,无需数据库即可运行。 telegram-search 一款基于OpenAI语义向量技术的Telegram聊天记录搜索工具,支持智能语义匹配与模糊查找,具备聊天记录自动备份、多条件组合搜索功能,针对中文等CJK语言优化并提供友好Web界面。 RL-Factory 一个用于智能体学习的强化学习后训练框架,采用环境解耦设计,只需提供工具配置和奖励函数即可开始训练,支持异步工具调用使训练速度提升2倍。 jules-awesome-list 一款能独立工作的AI编程助手,基于Gemini 2.5 Pro模型在Google Cloud虚拟机中完成整个开发流程,从理解代码到制定计划再到提交代码全程无需监督,每天提供5个免费任务次数。 agenticSeek 一款100%本地替代Manus AI的开源解决方案,基于本地推理模型和智能代理系统,能够自主浏览网页、编写代码、规划任务并支持语音交互。 qlib 一款业内完整的AI量化投资平台,涵盖从想法到生产的完整量化研究流程,基于强大的数据处理引擎和丰富的模型库,支持监督学习、强化学习等多种范式。 DeepResearchAgent 一款集成多个Agent的开源项目,能智能分解复杂任务并分配给专业代理执行深度分析、研究及浏览器自动化操作,采用分层架构实现多智能体动态协作,支持本地部署和扩展更多专业化代理。 opencode 一款面向开发者的终端AI助手工具,可在命令行直接提供AI帮助,无需切换环境。支持OpenAI、Claude等主流AI模型,集成文件操作、命令执行、代码分析和LSP智能诊断功能,基于Go语言开发并支持MCP协议扩展。 StreamingKokoroJS 一款浏览器端文本转语音开源项目,基于Kokoro-82M模型实现本地实时生成高质量语音,支持多种语音风格、WebGPU加速和流式播放,保护隐私且完全免费。 Dolphin 一款专注于高效处理文档的多模态模型,能精准解析复杂文档元素。通过两阶段分析解析机制,先确定页面布局阅读顺序,再并行处理不同类型元素,保证准确性并大幅提升效率,输出结构化JSON和Markdown格式,支持Hugging Face框架集成及两种推理模式。 magentic-ui 一款来自微软开源的人机协作网页自动化工具,支持与AI助手协作规划和编辑复杂网页任务,基于AutoGen框架的多智能体系统,兼顾自动化效率与人工控制权。 Ghost-Downloader-3 一款跨平台的文件下载工具,支持AI智能加速和多线程并发下载以提升速度与稳定性,具备智能分块下载无需合并文件、计划任务管理及浏览器插件优化功能,兼容Linux、Windows和macOS系统。 mcp-prompt-server 一款用于管理和调用Prompt的MCP服务器。将常用Prompt模板注册为可参数化调用的工具,支持自然语言调用和组合工具实现复杂工作流,具备热加载功能和YAML扩展能力,适配Raycast、Cursor等主流编辑器。 codeflash 一款专注于Python代码优化的开源工具,能一键优化整个代码库并提升性能。通过大模型生成多种优化方案,自动测试正确性与性能基准,创建含最佳优化的拉取请求供审核。 nanoDeepResearch 一个用于深入理解 OpenAI Deep Research 底层工作原理的开源项目。实现完整的 ReAct 代理系统和多专家协作机制,透明展示决策过程与生成内容,支持网络搜索、网页爬取及 Python 编程工具,无需依赖现有框架即可从零构建深度研究 Agents。 news-agents 一款面向终端工作开发者的开源新闻信息聚合工具。自动从Hacker News等多源抓取最新技术与商业资讯,通过Amazon Q、MCP和tmux实现多智能体并行处理,生成来源单独摘要与完整总结,无需切换窗口即可直观高效获取信息。 awesome-cursor-rules-mdc 一款用于 Cursor 的 MDC 规则文件生成工具,能自动收集各库最佳实践生成结构化内容,利用 Exa 语义搜索和 LLM 技术,支持并行处理与进度跟踪以简化规则创建过程。 stagewise 一款面向前端开发者的AI开发辅助工具,用于简化UI样式修改流程。可在浏览器中直接选择元素并添加评论,自动整合截图、DOM结构及元数据发送给AI助手,支持主流前端框架且仅在开发模式生效,无需额外配置即可连接VS Code扩展。 MathModelAgent 一款能自动完成数学建模全流程的AI助手,内置代码手、论文手、建模手等智能体,实现全自动分析问题、建模、编写代码、纠错并生成格式完整论文,代码手带有反思模块和本地代码解释器。 mcp-server-chart 一款为AI助手提供专业级数据可视化能力的MCP服务器,能在AI对话中直接生成柱状图、折线图、饼图等15+种高质量图表,采用AntV可视化图表生成框架。 arxiv_summarizer 一款提升论文阅读效率的开源工具,支持单篇与批量论文总结及关键词搜索,利用免费Gemini API自动提取并总结arXiv论文内容,还可设置每日自动追踪最新论文并生成摘要保存。 papersgpt-for-zotero 一款Zotero文献工具插件,通过集成AI模型实现在Zotero界面与论文对话,支持本地开源模型和主流API模型,可分析多篇文献、生成综述,保证数据隐私且无缝集成Zotero。 graphiti 一款为动态环境AI代理打造的时间感知知识图谱开源框架,通过连续整合多源数据构建可查询图谱,实现增量更新、高效检索和精确历史查询,支持双时态数据模型、混合检索及MCP服务器集成。 auto-dev 一款IntelliJ IDEA的AI开发辅助插件,集成多功能智能工作区,提供AI代码生成、测试及文档创建,支持多语言开发与SDLC全流程,内置优化编程模型并允许自定义LLM服务器和团队级提示词。 moodiary 一款功能全面的跨平台日记应用,支持文字、图片、音频及绘画等多种记录形式,配备本地AI分析功能以保障隐私数据不会上传至第三方服务器,覆盖Android、iOS、Windows和Mac平台。 terminator 一款创新性的开源自动化AI工具,直接解析电脑应用实现快速准确控制,具有速度远超传统方法、支持遮挡或后台窗口操作、不因界面变化而失效的特点,目前主要支持Windows系统,macOS仅支持部分功能。 speakr 一款保障数据隐私安全的AI会议助手。支持离线运行,可将会议录音转录为文字并生成摘要,还能通过聊天方式与会议内容进行交互式问答,所有数据存储在本地。 docext 一款无需OCR的本地化开源文档信息提取工具,能够从各类文档中灵活提取自定义字段和表格信息,支持使用预建模板,利用视觉语言模型实现准确识别并保障数据安全隐私。 ACE-Step 一款能媲美Suno的开源音乐模型,能在极短时间内生成高质量音乐且比传统AI模型快15倍,通过结合扩散生成模型和轻量级Transformer,训练中利用REPA技术实现语义对齐,使生成的音乐既保持高度连贯性又能精确对齐歌词。 void 一款Cursor的开源平替编程工具,具备与Cursor相似的强大编程功能,支持按Tab键智能补全代码,可直接连接任何AI模型或使用本地部署模型,无需经过第三方服务器。 flowgram.ai 一款基于节点编辑的可视化工作流构建引擎,提供固定布局与自由连线布局两种模式及完整交互实践,专注为工作流赋能AI能力,支持节点拖拽操作。 buster 一款面向数据运营场景的AI数据分析师工具,支持自然语言查询数据并生成可视化图表和动态仪表板,通过代码化方式管理模型与仪表板,支持CI/CD、版本控制及与dbt工具无缝集成,提供AI智能建议以改进数据模型和提高数据质量。 SurfSense 一款集成NotebookLM与Perplexity核心功能的开源智能知识库平台。支持27种文件格式上传构建私人知识库,通过自然语言交互获取引用答案,可连接搜索引擎等外部资源并快速生成播客内容,采用先进RAG技术提升检索精准度,提供跨浏览器扩展保存网页及私有化部署选项。 arxiv_daily_aigc 一款用于筛选arXiv最新AIGC论文的开源项目。每日自动抓取CS.CV领域论文,通过AI智能筛选图像/视频/多模态生成相关内容,进行多维度价值打分并生成结构化JSON与美观HTML页面,支持按日期浏览,全自动化部署更新。 OpenDeepWiki 一款帮助开发者快速理解代码结构的开源工具,通过AI深度分析项目代码生成完整知识库和Mermaid图表展示结构依赖,支持对话式交互提问代码细节、自定义AI模型扩展及生成SEO友好文档。 kubectl-ai 一款用于 Kubernetes 集群管理的 kubectl 插件工具。让用户通过自然语言直接操控集群,无需记忆复杂命令。支持 Gemini、OpenAI 等多种 AI 模型及本地离线模型,具备交互式会话能力,并可与其他命令行工具配合使用。 cs-paper-checklist 一份面向计算机科学论文的质检清单,主要用于检查会议和期刊投稿的写作质量、结构合理性及内容呈现,分为11部分从标题摘要到参考文献进行全面检查。 agent-squad 一款轻量级灵活的开源多AI智能体协调框架,能够根据发送内容智能路由到最合适的AI智能体,并在不同智能体之间维持对话上下文,具备智能意图分类和动态查询路由功能。 excel-mcp-server 一款实用的MCP服务器,通过AI助手直接操作Excel文件,实现创建、读取、修改表格数据,应用格式、创建图表和透视表等专业Excel功能,无需安装微软Excel办公软件。 MCP-SuperAssistant 一款用于AI对话网页的浏览器插件,在ChatGPT、Gemini、Grok界面解锁MCP工具调用,可自动检测并连接外部数据和工具,将结果无缝插回对话,提供自动执行模式无需手动操作。 AI-Media2Doc 一款自媒体内容创作工具,能一键将视频和音频转换为知识笔记、内容总结等多种风格的文档,还支持基于视频内容进行AI对话提问。 cloi 一款完全本地运行的终端调试AI工具,内置Phi-4模型并支持切换,可分析错误、自动生成修复方案并在同意后直接应用修改,提升调试效率,且完全开源免费。 deep-research 一款主打快速生成深度研究报告的开源平替工具。仅需2分钟即可生成全面报告,结合深度思考与联网功能,支持多种主流大模型,通过搜索引擎获取最新信息并提供内容编辑及阅读难度调整能力。 zotero-pdf2zh 一款用于 Zotero 的 PDF 翻译插件,一键翻译英文论文并保留原文对照,支持多种翻译引擎、数学公式和图表保留,智能转换双栏论文为单栏提升阅读体验。 company-research-agent 一款用于自动生成公司研究报告的开源项目。集成多个AI智能体从公司网站、新闻、财报等多源收集信息,结合Gemini处理数据和GPT-4.1排版,生成高质量报告,支持实时进度查看和报告下载。 kotaemon 一款用于文档交互的开源项目,可通过聊天方式提取信息。采用混合检索技术结合大语言模型,支持多用户登录、多模态文档解析、高级引用系统及复杂推理,兼容多种API服务商和本地LLM模型。 notebooks 一份一站式的大模型微调笔记合集,提供40+份涵盖Llama 3、Phi 4、Mistral、Qwen 2.5等主流开源模型的笔记本,每个笔记本均包含详细注释和指南以方便直接上手微调训练模型。 transformerlab-app 一款面向大语言模型开发的全流程工具。提供图形界面实现模型微调、偏好训练和评估,支持MLX与Huggingface等多框架,具备模型下载、数据集构建、格式转换及插件扩展功能,跨平台且无需复杂配置。 deepwiki-open 一款用于高效理解代码库的开源工具,能一键将GitHub或GitLab仓库转换为交互式wiki文档,通过AI智能分析代码结构和关系,自动生成全面文档与Mermaid架构图表。 interview-coder-withoupaywall-opensource 一款面向技术面试者的辅助开源工具,能够创建对视频软件不可见的窗口,利用AI自动分析截图中的题目并给出代码解法,提供实时调试帮助。 tolgee-platform 一款为前端网页应用国际化设计的开源工具。支持按住ALT键点击页面文本直接编辑翻译内容并实时查看效果,无需切换文件或刷新页面,集成AI翻译服务、翻译记忆和团队协作功能,可作为商业平台的开源平替。 superdesign 一款直接集成在IDE中的开源AI设计Agent,通过自然语言提示生成完整UI界面、可复用组件和线框图,支持Cursor、Windsurf、VS Code等主流AI编辑器。 fireplexity 一款超快速的AI搜索引擎,能更快获取实时靠谱信息,基于Firecrawl爬取技术实时搜索网络内容并通过GPT-4o-mini生成智能回答,每个答案都带有详细来源引用且能自动显示股票图表。 MultiAgentPPT 一款自动化PPT生成工具,只需输入主题即可生成高质量内容并支持在线编辑修改,通过多智能体协作实现大纲生成、拆分、调研与汇总的全程自动化。 NativeMindExtension 一款完全本地化运行的AI助手浏览器插件,支持智能对话及多标签页上下文理解、网页内容分析,通过Ollama和WebLLM调用本地模型,所有数据处理在设备本地完成以保障隐私安全。 knowledge-graph-llms 一款从文本自动生成知识图谱的开源工具,能智能识别文本中的实体和关系并生成可交互的可视化图谱,基于LangChain和OpenAI GPT-4o模型开发。 illa-helper 一款基于“i+1”理论的浏览器语言学习插件,可在网页浏览中智能替换部分词汇为目标语言并配备发音学习系统,支持20余种语言检测和翻译比例控制、交互式悬浮框发音与词义展示、用户水平适配的词汇难度调整及多浏览器兼容。 gemini-cli 一款对标Claude Code的终端编程AI助手,基于Gemini 2.5 Pro模型,支持100万Token上下文窗口、多模态生成应用、自动化处理代码合并,集成MCP协议扩展和Google搜索功能。 Twocast 一款GitHub开源的AI博客生成工具Twocast,支持通过主题、网页链接和文档等多种输入方式,在几分钟内生成包含音频、大纲和脚本的3-5分钟双人播客内容,生成效果贴近真人。 enableAppleAI 一款用于国内Mac设备的开源工具,能永久开启Apple Intelligence功能,无需长期运行后台服务和禁用SIP即可稳定使用,支持相册消除功能。 openai-cs-agents-demo 一个基于 OpenAI Agents SDK 构建的航空公司智能客服系统,能自动识别问题类型并路由给对应专业 Agent,由多个 Agent 组成以实现专业化服务。 claudia 一款为Claude Code打造的GUI界面工具。提供可视化项目管理和会话历史功能,支持创建专用AI代理并在沙盒环境中安全运行,同时追踪API使用成本,目前需通过源码编译安装。 Claude-Code-Usage-Monitor 一款用于监控 Claude Code token 使用情况的开源工具。实时追踪消耗与燃烧速度,智能预测耗尽时间,自动适配多种计划类型,提供可视化进度条和自定义重置设置,界面直观且带有警告提示系统。 tools 一款AI Agents开发框架,提供30多种实用工具涵盖文件操作、系统命令等核心功能,支持集群智能协调多个代理解决复杂问题,仅需几行代码即可构建强大智能助手。 yap 一款专为 macOS 设计的本地语音转录工具,可处理音频和视频文件并支持多种语言转录,能与 yt-dlp 配合下载 YouTube 视频直接转录,完全离线运行以保障数据安全隐私。 BallonsTranslator 一款基于深度学习的漫画翻译工具,能够自动检测漫画文字区域并识别内容完成翻译,同时保持原有颜色、轮廓、角度等排版效果,支持图像修复、富文本编辑和全文查找替换功能,适用于日漫和美漫,提供跨平台安装包并默认启用GPU加速。 obs-backgroundremoval 一款基于神经网络的OBS直播背景处理插件。无需绿幕即可实现人像及任意物体智能分割并替换背景,具备低光环境画面增强和景深效果模拟功能,支持多平台GPU加速及Windows、Mac、Linux系统兼容。 chatlog 一款微信聊天记录管理开源工具,支持微信3.x/4.0版本自动获取聊天记录,提供Terminal UI界面和命令行工具便于操作,可通过HTTP API和MCP协议与AI助手无缝集成。 graph-rag-agent 一个结合GraphRAG与DeepSearch的智能问答系统框架,能回答问题并完整展示思考轨迹和证据来源,从零复现GraphRAG核心功能,提升AI推理过程的可见性与可信度。 TradingAgents 一款基于多智能体系统的金融交易协作开源项目。部署基本面、情绪面、新闻面、技术面分析师等专门角色,通过动态讨论制定最优交易策略,包含多空辩论机制、风险管理和投资组合管理功能,支持自定义LLM模型和辩论轮次配置。 mcp-sequential-thinking 一款基于MCP协议的思维过程管理服务器。将思考分解为问题定义、研究、分析、综合、结论五个阶段,自动记录思维轨迹与元数据,识别想法间联系,追踪进度并生成总结,支持数据导入导出。 jaaz 一款可本地运行的AI设计助手,通过对话式界面实现图像编辑、批量生成及无限画布创作,支持Ollama本地LLM与主流AI模型,集成ComfyUI基于Flux Kontext实现物体去除、风格转换等功能,提供跨系统开箱即用安装包。 ssh-ai-chat 一款基于SSH协议的AI对话工具,支持通过命令行直接连接DeepSeek-V3、Gemini等主流模型。可部署为私有或公开服务器,具备用户白名单、限流及思维链推理展示功能,采用React和Ink构建终端界面,适合注重隐私的开发者和运维人员使用。 Office-PowerPoint-MCP-Server 一款功能全面的 Office-PowerPoint-MCP 服务器,支持通过 AI 助手直接创建编辑 PPT,可实现创建幻灯片、添加表格、插入图片文本框及生成各类数据图表等操作,无需安装 PowerPoint。 agent-rules 一份专为AI编程助手收集整理的最佳实践规则配置集合,包含代码质量检查、文档生成、问题分析等数十种预定义规则,使用统一的.mdc格式,复制到项目目录即可生效,适用于Claude。 pagemagic 一款用于修改网页外观的开源浏览器插件,允许用户通过自然语言描述想要的改变效果,AI会自动生成相应的样式代码并实时应用到页面上。 wenyan-mcp 一款用于公众号文章处理的MCP服务器。帮助用户在AI助手端将Markdown文章自动排版并发布至微信公众号草稿箱,支持图片自动上传,还内置多种主题并可自定义。 mcp-chrome 一款基于Chrome插件的MCP服务器,实现复杂的浏览器自动化、内容分析和语义搜索,能保持用户的登录状态和浏览器设置。 davia 一款面向开发者的开源LLM应用生成工具,能快速创建基于shadcn/ui组件的可交互网页应用,内置实时流式输出,支持LangGraph agents和Python应用,基于FastAPI构建且易于集成现有项目。 opik 一款用于构建、评估和优化LLM系统的开源评估平台,能全面跟踪LLM调用和智能体活动,支持开发和生产环境,原生兼容OpenAI、Autogen、LangChain等20+主流框架。 avante.nvim 一款为 Neovim 编辑器打造的开源插件,直接在编辑器内提供 AI 驱动的代码分析和建议,支持与当前文件或选定代码库进行智能对话,能一键应用 AI 建议。 PreenCut 一款基于 AI 技术的开源视频剪辑工具,通过 WhisperX 实现自动语音识别生成准确转录,支持语义化搜索功能,可用自然语言快速定位视频片段。 AI-worker 一款用于访问受限AI服务的Cloudflare Worker工具,通过转发API请求实现对Gemini、Imagen等平台的访问,内置简洁HTML界面便于直接使用。 MonkeyOCR 一款专注于复杂文档解析的OCR工具,能精确识别文字、公式和表格并保持原有文档结构和布局关系,仅需3B参数即可在性能上超越Gemini 2.5 Pro等闭源模型。 vibetest-use 一款用于网站自动化测试的 MCP 服务器,可一键启动多个 Agent 对网站进行全面测试,底层使用 Browser-Use 自动化智能体,最多支持 10 个 Agent 同时运行,能自动发现 UI Bug、失效链接、可访问性等问题,还支持生产环境和本地测试。 OpenAiTx 一款用于GitHub项目多语言README生成的开源免费工具,能一键将项目翻译为20种语言,采用GPT-4.1模型确保翻译质量,提供徽章或链接格式供展示且无需注册配置。 AI-Screenshot-Translator 一款解决图像扫描外文PDF文本复制难题的截图翻译工具,通过自定义快捷键一键截图,AI自动识别并翻译图片中的文字,能完美处理PDF数学公式复制问题。 langchain4j 一款为 Java 开发者设计的 AI 功能集成框架,提供统一 API 快速对接 15+ 主流 LLM 提供商和向量数据库,包含从提示模板到 RAG 应用的完整开发工具箱,支持与 Spring Boot、Quarkus 等框架快速集成,通过 Maven 添加依赖即可使用并提供详细文档和入门指南。 vosk-api 一款离线开源语音识别工具包。支持20多种语言识别,提供连续大词汇量转录和说话人识别等功能,完全离线运行且零延迟响应,模型仅50MB,适配多语言开发环境。 deep-research-mcp 一款深度研究开源工具,通过迭代式深度搜索和智能来源评估自动生成目标查询并输出详细Markdown研究报告,支持MCP协议可集成到Claude、Cursor等AI工具中。 AirPosture 一款基于AirPods传感器的macOS坐姿监督应用,实时捕捉并可视化不良姿势,展示不良姿势时间及头部方向等信息以助及时调整。 agentic-doc 一款专为从复杂文档中高效提取结构化数据的开源Python库。智能识别处理文档中的表格、图片和图表等复杂元素,返回带有精确元素位置的层次化JSON数据,支持1000+页长文档的自动处理。 daily-arXiv-ai-enhanced 一款每日追踪arXiv最新论文的开源工具,每天自动爬取计算机视觉等领域论文,使用DeepSeek等大模型生成中文摘要,帮助用户轻松掌握AI领域最新研究动态。 dedoc 一款文档格式转换与结构化处理工具,能将Word、PDF、扫描件等多种格式文档自动转换为统一结构化格式,基于机器学习和OCR技术,可智能提取表格、文本格式、层级结构及处理扫描文档方向纠正。 Perth 一款基于神经网络技术的开源音频隐式水印工具,为音频添加完全不可感知的水印以实现版权保护,具备超强抗干扰能力,经过压缩、重采样等处理后仍能准确检测水印,支持多种算法和批量处理,通过Python API接口方便集成。 onlook 一款专为设计师打造的开源AI编辑器,提供类似Figma的可视化编辑界面,支持拖拽修改网页元素、实时预览效果及通过AI对话生成代码,基于Next.js+TailwindCSS技术栈,可直接DOM操作并同步显示代码。 ai-knowledge-graph 一款基于LLM技术的开源知识图谱生成工具,能将文档自动转换为可视化知识图谱。支持大型文档智能分块、实体关系识别与标准化、隐含联系推理及交互式图谱可视化,兼容Ollama、OpenAI等多种LLM API。 memvid 一款颠覆传统向量数据库处理方式的开源项目,将文本数据编码成视频文件实现存储与搜索功能,通过数百万文本块压缩到单个MP4文件,实现10倍存储压缩率和亚秒级语义搜索,无需数据库服务器且内置对话功能。 chatterbox 一款与 ElevenLabs 相媲美的开源 TTS 模型,支持零样本语音克隆和独创的情感夸张控制功能,基于 0.5B Llama 架构训练,能让合成语音更生动有趣。 gemini-fullstack-langgraph-quickstart 一款用于构建生产级研究助手的 DeepResearch 框架,封装动态查询生成、网络研究、反思分析等多步骤 Agent 工作流,基于 Gemini 推理能力和 LangGraph 状态管理,支持接口灵活更换。 Chatterbox-TTS-Server 一款用于自托管专业级语音合成服务的开源项目,基于Chatterbox TTS模型构建,提供Web UI和OpenAI兼容API接口,支持声音克隆、智能长文本分块处理、GPU加速及Docker一键部署,降低部署复杂度并保障隐私安全。 gallery 一款谷歌开源的AI模型运行应用。内置Gemma 3n多模态AI模型,支持完全离线运行、图像问答、多轮对话、提示实验等功能,仅需2GB手机运行内存即可使用,还能切换对比多种Hugging Face模型。 Windows-MCP 一款开源的MCP服务器,让AI助手具备直接控制Windows电脑的能力,可执行鼠标点击、拖拽、移动,键盘输入及应用启动等系统操作,实现精准界面操作与真正的系统级AI控制。 open_deep_research 一款来自LangChain团队的完全开源深度研究Agent,能够自行执行复杂研究任务并自动化处理信息收集与分析整理,支持OpenAI、Anthropic、Google等多种模型提供商和搜索工具。 neuralagent 一款能在桌面自主完成任务的AI Agent,可直接执行打字、点击、浏览网页、填写表单、发送邮件等操作,支持后台自动完成复杂任务。 docs 一款专为解决团队协作写文档痛点的轻量级开源项目,支持实时协作编辑、Markdown语法和丰富块类型编辑,内置AI智能助手辅助润色总结翻译,提供离线编辑自动同步、灵活权限控制和多格式导出功能。 presenton 一款可本地运行的AI PPT生成工具。支持OpenAI、Gemini、Ollama等主流AI模型,能保护数据隐私不上传信息,提供自定义HTML模板、多种图片来源集成和API接口,可批量生成并导出PowerPoint和PDF格式。 agents 一款基于Python构建的智能语音Agent开发框架,整合语音识别、AI对话和语音合成功能,支持多AI模型接入、实时音视频通信及SIP电话集成,采用级联管道设计实现灵活的服务组合与智能对话流控制。 abogen 一款开源的文本转语音工具,能快速将ePub、PDF或TXT文件转换成高质量音频并生成匹配字幕,基于Kokoro-82M模型生成自然流畅语音。 unfake.js 一款基于OpenCV.js和先进图像处理算法的工具,用于解决AI生成像素艺术的常见问题。提供像素艺术处理和图像矢量化功能,可智能检测像素尺寸、清理颜色溢出、优化调色板,并支持将位图转换为SVG格式,同时具备浏览器在线工具和调色板编辑器。 prompt-shelf 一款基于 Rust 构建的 AI 提示词版本控制系统,支持类 Git 的提交历史、版本对比和回滚功能,实现提示词与代码分离管理,提供 REST API 接口、Redis 缓存优化、JWT 认证及 Docker 一键部署能力。 prompt-manager 一款用于管理常用提示词的编辑器扩展,支持创建、编辑、分类组织Prompt,提供智能搜索和一键发送功能,适配Cursor、VSCode等编辑器,支持JSON格式导入导出及团队共享。 DailiCode 一款开源的终端AI编程助手,支持Gemini、OpenAI、Claude、Qwen等多种LLM提供商,允许用户自由选择任意模型并一键切换不同AI。 qwen-code 一款阿里团队开源的终端AI编程助手,基于Gemini-CLI开发,使用Qwen系列最强编码模型Qwen3-Coder,支持超长上下文处理能力,能自动化处理PR审查、代码重构及分析超出传统上下文限制的代码。 ComfyUI-Lora-Manager 一款专为 ComfyUI 设计的 LoRA 模型管理工具。通过统一 Web 界面实现模型的管理、下载与应用,支持一键工作流集成、自动获取预览图和触发词,并能从 CivitAI 直接下载模型。 grok-cli 一款基于Grok的终端AI助手,通过自然语言与用户交互完成各类任务,提供简洁美观的终端界面及智能文件操作功能,支持自动创建、编辑和查看文件、创建代码、运行脚本等操作。 ComfyUI-Copilot 一款阿里团队开源的ComfyUI AI辅助工具。为解决节点查找和工作流构建问题,提供自然语言节点搜索、智能连接推荐、互动问答、参数探索、提示词优化及模型查询功能,可通过ComfyUI管理器或克隆目录安装。 wordpecker-app 一款结合个人化词汇管理与Duolingo式练习的开源外语学习工具,通过Vision Garden图像描述、AI语音对话等创新交互方式,在真实语境中积累词汇,支持多语言学习、多样化题型训练及Docker一键部署。 ai-goofish-monitor 一款针对闲鱼平台的实时监控和智能分析工具。通过自然语言描述购买需求创建监控任务,结合GPT-4o分析商品图文和卖家画像,提供可视化任务管理、多任务并发监控、即时通知推送和高度可定制化筛选条件。 deepscrape 一款用于数据收集和RAG系统构建的开源网页处理工具,可一键将网站内容智能转换为结构化数据,结合Playwright自动化和GPT-4o智能提取技术,支持批量处理、多种输出格式及基于JSON Schema的精确提取。 n8n-mcp 一款面向n8n工作流开发者的开源MCP服务器,通过MCP协议使Claude等AI助手能访问525+节点的完整文档与配置验证功能,直接管理工作流的创建、更新和执行。 MultiTalk 一款用于制作多人对话场景的数字人生成工具,通过音频文件、参考图片和提示词生成嘴型同步的视频内容,支持歌唱和卡通角色生成功能。 mcp2mqtt 一款连接AI助手与智能硬件的开源项目,通过整合MCP协议和MQTT协议,实现AI助手语音指令对硬件设备的即时操控,如调节灯光亮度、控制风扇开关等功能。 apple-doc-mcp 一款面向苹果开发者的MCP服务器,在AI编程助手上直接获取Apple最新开发文档,支持智能搜索和通配符匹配,能够实时获取SwiftUI、UIKit、Foundation等所有框架的最新文档内容。 opencoder 一款基于Vercel AI SDK构建的Claude Code开源平替版本,支持多种AI模型(OpenAI、Anthropic、Google)灵活选择,具备跨平台特性和高性能UI渲染能力的代码工具。 CapCutAPI 一款基于 Python 开发的 CapCut 自动化控制开源项目,可自动创建和管理剪映草稿、添加素材、应用特效,并集成 AI 服务生成字幕,实现全自动化视频剪辑流水线。 vibe-kanban 一款AI编程任务管理开源解决方案,通过看板方式编排和追踪AI编程助手工作。支持多助手并行或串行任务执行、代码审查、开发服务器启动、任务状态实时追踪及MCP配置文件集中管理,兼容Claude Code、Gemini CLI等多种编程助手。 stagehand 一款基于自然语言的浏览器自动化AI工具,通过描述执行复杂操作,支持代码精确控制关键步骤并提供可视化预览操作过程。 12306-mcp 一款为12306开发的购票查询MCP服务器,提供API接口支持AI助手直接搜索购票信息,实现购票信息查询、列车信息过滤、过站查询及中转查询等功能。 ruler 一款用于统一管理AI编程工具配置的开源项目,通过集中式.ruler/目录存储规则,自动分发配置到各工具专用文件,支持MCP服务器配置管理、自动更新.gitignore、灵活CLI命令和完整回滚功能。 claudecodeui 一款为Claude Code提供可视化界面的应用,通过直观网页界面管理项目、进行聊天对话和文件编辑,支持响应式设计、集成Shell终端、Git资源管理及会话历史记录功能。 claude-code-kimi-groq 一个开源项目,让用户只需运行脚本即可在Claude Code上使用Kimi K2模型。通过Groq平台实现,运行脚本时会让Groq替换Anthropic API代理,使用需配置Groq API密钥。 genai-toolbox 一款专用于数据库的MCP服务器Toolbox,支持在AI助手上管理PostgreSQL、MySQL等主流数据库,能自动处理连接池、身份认证和安全等复杂问题,可简化开发流程实现10行代码内集成并提供统一工具管理。 TradingAgents-CN 一个基于多智能体大语言模型的中文金融交易决策框架,模拟真实交易公司决策流程,通过分析师、研究员、交易员等智能体角色制定最优交易策略。 wealth-tracker 一款高颜值直观的个人资产管理工具,全面记录银行、理财、股票基金等各类资产状况,通过简洁界面呈现丰富图表,并利用AI提供适宜的财务建议和投资见解。 peekaboo 一款专为macOS系统设计的开源工具,提供高效截屏和AI图像分析功能。可快速截取屏幕、应用或特定窗口,支持GPT-4 Vision、Claude及本地模型进行分析,同时提供命令行工具和MCP服务器集成能力。 ollama-hpp 一款用于在C++中调用本地LLM的开源项目,只需下载单个头文件即可使用,支持C++11到C++20全版本并完整覆盖Ollama API所有功能,提供超简单调用方式。 RapidRAW 一款专注于RAW照片处理的开源图像编辑工具,提供专业级调色、AI智能蒙版与生成式编辑功能,采用GPU加速技术实现流畅响应,支持跨平台使用且安装包仅30MB。 gptree 一款用于辅助AI理解项目的开源工具,能一键将整个项目的文件内容和目录结构打包成单个文本文件,帮助AI快速掌握完整的项目上下文。 LiYing 一款基于AI模型的证件照自动化处理工具。实现人脸和人体自动识别定位、精准抠图换背景,支持照片角度自动纠正、任意背景色替换、多种尺寸自动裁切及智能排版功能,完全离线运行以保护隐私。 muvera-py 一款基于谷歌FDE算法的Python多向量检索工具,实现海量文档高效搜索。通过固定维度编码技术将数百个向量压缩为单个向量,检索速度提升8倍以上,完全兼容Google原始C++实现。 blinko 一款专为快速捕捉和组织灵感设计的开源笔记工具,能瞬间记录想法并通过自然语言快速搜索,支持OpenAI、Claude、Ollama等主流AI提供商进行AI增强笔记检索。 cloudflare-wx-api 一款基于 Cloudflare 的微信服务号 AI 接入开源解决方案,实现个人开发者验证码与扫码登录,支持 LLM 智能自动回复,并提供响应超时处理方案。 infio-copilot 一款适用于 Obsidian 的插件,能将 Obsidian 转变为智能写作助手,支持智能自动补全、内联编辑、笔记对话、语义搜索及工作空间管理功能,可帮助用户智能分类管理和综合信息。 mcp-chrome 一款基于Chrome插件实现的MCP服务器,让Claude等AI助手直接操控浏览器,实现自动化操作、内容分析和语义搜索等功能,保留所有登录状态和配置。 cheating-daddy 一款针对线上面试或会议突发情况的AI辅助工具。基于Google Gemini 2.0 Flash Live技术,实时分析屏幕内容和音频对话,提供场景化智能建议,具备透明覆盖窗口、快捷键控制和跨平台支持能力。 context-engineering-intro 一份用于提升AI编程效率的上下文工程模板,帮助AI编程助手充分理解项目规范、代码风格和架构模式,从而生成符合项目标准的高质量代码。 notebookllama 一款NotebookLM的开源平替AI播客生成工具。可分析文档生成洞察并创建播客风格音频对话,所有数据由用户自主控制。 opendia 一款MCP服务器,提供浏览器自动化任务的解决方案,让AI直接控制浏览器,可利用已登录状态、书签、历史记录等数据,无需重新配置或切换环境实现自动化操作。 litgpt 一款用于大语言模型训练与部署的工具,支持20余种主流模型的预训练和微调流程。集成参数高效微调方法、性能优化及量化技术,通过YAML配置文件简化复杂参数设置,提供完整工作流程和模板。 PosterCraft 一款高质量美学海报设计生成框架,能够精确渲染文本、无缝集成抽象艺术,并生成漂亮的布局设计和风格协调的海报。基于Flux模型改进优化,采用Qwen3-8B模型对文本进行理解和处理。 mcp 一款用于网页数据抓取和浏览器自动化的 MCP 服务器,提供网页内容抓取、数据提取、爬虫及浏览器自动化功能,可集成 OpenAI CUA、Claude Computer Use 等 AI 智能体。 autogluon 一款让机器学习自动化的框架,仅需3行代码即可训练和部署高精度模型,自动处理特征工程与模型调优,支持表格、图像、文本、时间序列等多种数据类型。 mcp-google-sheets 一款用于 Google Sheets 表格数据处理的 MCP 服务器。让 AI 助手直接读取、编辑、创建表格,进行批量更新和数据分析,支持全面的表格操作,仅需语音指令即可完成操作。 claude-code-flow 一款基于Claude Code的开源协调工具,可同时调度多个AI Agent并行工作,内置架构师、编程等多种角色及17种专业开发模式,提供实时监控面板以可视化查看任务进度,支持一条命令快速部署。 ChineseErrorCorrector 一款专业的中文文本纠错模型,能发现拼写错误和识别复杂语法问题并给出修改建议,基于Qwen2.5训练,提供1.5B到32B多种规模选择,支持transformers、VLLM等推理方式且完全开源。 directories 一款面向AI编程工具的开源平台,汇集Python、Next.js等主流编程语言和框架的高质量提示规则,帮助优化Cursor、Windsurf等工具的使用体验。 memorizz 一款面向AI Agents的持久记忆开源工具,实现跨会话对话历史存储与语义搜索,基于MongoDB和向量搜索技术,支持工具自动发现及一致人格系统。 vscode-copilot-chat 一款面向个人开发者和企业的AI编程助手开源项目,提供对话式编程辅助、Agent自动化模式及内联聊天功能,支持主流编程语言和框架,便于定制开发。 easyedit 一款基于 Flux Kontext 模型构建的图片编辑开源工具,仅需输入简单提示词即可快速完成角色转换、背景替换、添加或删除元素等图像编辑任务,无需专业 PS 技能,提供简洁易用的操作体验。 mcp-cli 一款统一AI服务交互方式的命令行工具,提供聊天、交互、命令三种操作模式,支持OpenAI、Anthropic、Ollama等主流LLM提供商,实现流式响应和并发工具执行。 ccseva 一款用于监控Claude Code使用情况的开源工具,能实时监控token使用量并30秒自动更新,通过菜单栏百分比指示器和颜色提醒状态,智能识别不同套餐类型,提供7天使用分析图表、成本估算及阈值通知提醒。 say 一款基于Whisper和Transformers.js技术的浏览器端语音转文字工具。在浏览器内直接录音并实时转录文字,无需上传文件保护隐私,支持富文本编辑、音频可视化及本地存储笔记。 comfyui-lumi-batcher 一款专为ComfyUI设计的批量处理扩展插件,支持工作流内所有参数自由交叉调试与复杂场景配置,提供多维表格可视化预览与智能化结果管理功能,支持多模态创作且交互设计降低学习成本。 mcp-knowledge-graph 一个让AI拥有持久记忆的MCP服务器。通过知识图谱结构存储实体、关系和观察信息,实现跨聊天信息记忆,支持搜索、查询、添加和删除等灵活管理功能。 gonzo 一款面向终端的日志分析工具,提供类似k9s的TUI界面,支持实时日志流处理、AI智能分析和可视化图表,具备原生OTLP支持、交互式仪表板、高级过滤功能及热力图可视化,兼容多系统且安装便捷。 openrouter-costs-visualizer 一款针对OpenRouter账单数据的可视化分析工具,通过拖拽上传CSV文件自动生成成本分析图表,支持数据去重、过滤排序和本地保存功能,基于原生JavaScript构建且不上传数据至服务器。 libra 一款 V0/Lovable 开源的 Libra AI 平替工具,支持用自然语言完成 Web 应用整个生命周期开发,基于 Cloudflare Workers 架构,集成 Claude、OpenAI、Gemini 等多种 AI 模型,提供云端 IDE、GitHub 无缝集成和一键部署功能。 what-to-eat 一款基于 Vue 3 + TypeScript 开发的 AI 菜谱生成工具。支持输入最多 10 种食材智能生成涵盖 15 种菜系的定制菜谱,提供营养分析、酒水搭配建议、AI 效果图生成和酱汁设计功能。 podcast-transcriber 一款播客处理工具,支持多平台链接解析,通过本地Faster-Whisper模型转录音频为文字,结合GPT优化文本并生成结构化总结,确保数据本地处理安全且无文件大小限制。 agent-c 一款使用C语言实现的超轻量级AI Agent,支持通过OpenRouter API接入各类模型并直接执行Shell命令操作系统,编译后体积仅4.4KB。 gabber 一款支持实时多模态交互的AI引擎,能处理语音、视频、文本媒体流并支持多人实时交互,可通过图形化节点连接构建复杂应用工作流,提供多语言SDK及Docker一键部署,帮助快速集成到多平台。 interactive-feedback-mcp 一款开源的MCP服务器,用于优化AI编程工具使用体验。在AI执行命令前后加入人工确认步骤,大幅减少高成本API调用次数,支持Cursor、Cline等工具并提供项目级配置保存与实时反馈功能。 VibeVoice 一款由微软开源的文本转语音模型。可生成90分钟连续语音内容,支持4个说话人自然对话,智能添加背景音乐和音效,具备跨语言合成、歌唱能力,提供1.5B和7B版本,通过Docker部署并配有Gradio可视化界面。 mcp-context-forge 一款由IBM开源的MCP服务管理工具,将多个分散的MCP服务统一到一个网关入口,支持HTTP、WebSocket等多种协议转换,提供可视化管理界面、虚拟服务器功能及REST API适配器,内置认证和缓存机制。 osaurus 一款专为 Apple Silicon 深度优化的本地 LLM 服务器。提供会话复用、原生图形界面和实时系统监控功能,基于苹果原生 MLX 框架构建,流式输出速度更快且支持 OpenAI 完全兼容特性。 verifiers 一款面向AI开发者的LLM强化学习模块化组件库。提供完整的环境构建方案,支持单轮、多轮及工具调用场景,内置异步GRPO训练器优化多GPU效率,可无缝接入vLLM等推理服务并支持灵活评估系统与自定义奖励函数。 midday 一款面向独立开发者的业务工具整合平台,涵盖时间追踪、发票管理、智能收据识别和安全文件库功能,通过AI助手分析财务状况并提供个性化建议,支持财务数据一键导出为CSV格式。 ccpm 一款基于GitHub Issues的开源项目管理工具,将产品需求自动拆分为任务并由多AI Agent并行处理,支持上下文持久保存与冲突避免,提供智能优先级调度和全流程命令行操作,实现团队协作与任务进度跟踪。 MarkFlowy 一款轻量级的开源Markdown编辑器,内置AI助手辅助写作及一键翻译功能,支持多种编辑模式与自定义主题,基于Tauri开发且安装包仅10MB。 WhisperLiveKit 一款可完全本地部署的实时语音识别工具,支持说话人识别、多人会议字幕和实时转录,具备本地化处理保护隐私、速度快、延迟低及多语言和模型支持的技术特点。 synthetic-questions-generation 一款用于大模型微调训练的开源工具,能基于文本自动生成风格多样的问答对,支持12+主流AI提供商、35+内置问题风格及批量并发处理,可灵活对接Hugging Face数据集和本地文件。 fireplexity 一款Perplexity的开源平替AI搜索引擎,提供网页、新闻、图片三种搜索模式,支持更强大可靠的内容抓取、实时引用和流式响应,媲美商业级产品体验。 DeepCode 一款开源的AI代码生成工具,从论文或文本描述自动生成完整前后端代码结构。通过多智能体系统协作完成文档解析、架构设计、代码生成与测试,支持CLI和Web交互界面。 intrascribe 一款本地化语音转写平台,用于解决数据隐私安全问题。提供实时转写、说话人分离、AI总结等完整功能,支持本地化部署,所有数据保留在本地服务器,确保隐私合规。 happy 一款用于远程控制Claude Code的移动客户端,支持实时监控长任务执行状态、推送权限请求通知、手机电脑一键切换控制权,采用端到端加密保障信息安全,跨平台兼容iOS、Android和Web端。 deepagents 一款基于 LangChain DeepAgent 框架的股票研究 AI 助手。通过多专业 Agent 协作,整合基本面、技术面和风险评估等维度,实现实时数据获取、系统化研究流程及 Web 界面自然语言查询,支持本地部署确保数据安全,可将数小时研究压缩至几分钟完成并提供投资建议。 OpenAvatarChat 一款开源的数字人对话系统,支持在个人电脑运行实时对话,平均响应时间2.2秒。具备多模态交互能力,采用模块化架构设计,可灵活替换组件,提供本地推理和云端API两种部署模式,预置100+数字人形象及两种渲染方式。 motia 一款统一后端开发的集成框架,整合API、任务队列和AI代理为Step模式,支持JavaScript、TypeScript、Python多语言混合开发,内置可观测性工具、事件驱动架构及零配置部署,提供可视化工作台和热重载功能。 airi 一款基于Live2D、VRM模型的AI虚拟伴侣开源项目。支持聊天对话、游戏陪玩、语音交流等功能,兼容30余种LLM服务和多平台运行,可在浏览器、桌面和移动设备使用。 zotero-mcp 一款针对Zotero文献库的MCP插件,提供AI语义搜索、PDF注释提取和文献分析功能,支持生成BibTeX引用及多篇论文总结比较。 Kronos 一款专为金融K线设计的预测模型。实现精准的金融预测,基于全球45个交易所海量数据训练,采用自研离散编码方式将OHLCV数据转成token,通过大规模Transformer模型学习走势模式,提供多种参数选择、金融数据分词器、一键预测接口及完整微调pipeline,支持A股市场数据与Qlib回测验证。 mcp-remote-macos-use 一款开源的MCP服务器,用于远程操作macOS系统完成日常任务。通过开启macOS屏幕共享功能,让AI直接操控桌面,实现点击、拖拽、键盘输入及打开App等操作。 Archon 一款为AI编程助手打造的统一知识库和任务管理中心,通过MCP服务器协议让编程工具访问项目文档、任务进度和知识库,具备智能知识管理、多模型支持和微服务架构,支持主流AI编程助手无缝接入。 claude-code-unified-agents 一款为Claude Code提供专业化子Agent的开源解决方案。包含覆盖开发、基础设施、质量保证等领域的54个智能体,每个具备1000+行生产级代码经验,支持智能协调多Agent完成复杂项目及工具权限单独配置。 mcp-use 一款用于实现任意LLM与MCP服务器无缝连接的开源项目,支持通过简单配置和代码让LLM控制浏览器、查找Airbnb、操控Blender等,覆盖网页浏览、3D建模、HTTP操作等实用场景功能。 shadow 一款与GitHub深度集成的智能AI代码助手,支持分支管理、PR生成和实时任务跟踪,通过隔离的QEMU容器执行环境确保代码安全运行,具备语义代码搜索、文件操作、终端命令执行及多LLM模型支持能力。 mcp-reddit 一款基于MCP协议的Reddit服务器,用于接入AI助手快速获取Reddit热帖。支持抓取任意subreddit的热门话题、完整内容及评论,处理文字、链接和图片等多种内容类型,并提供命令行工具方便测试调试。 PromptHelper 一款用于AI平台的油猴脚本,统一管理和一键应用Prompt模板。覆盖10大主流AI工具,支持自定义模板创建、站点专属默认设置、模板变量替换及导入导出功能。 ScreenCoder 一款能将截图或设计稿转换为前端代码的开源项目,支持GPT-4o、Gemini-2.5-Pro等模型,通过内置多个Agent互相协作提升复刻效果。 Librum 一款个人在线图书馆管理工具,支持跨设备无缝同步电子书,集成AI工具、智能标注和笔记功能,提供超过7万本免费图书,兼容PDF、EPUB等主流格式并支持分类整理。 omnara 一款用于监控和管理AI编程工具的开源项目。实时追踪Claude Code、Cursor等工具的工作步骤和进展,通过移动端推送关键节点通知并支持远程交互指导,提供统一管理界面和MCP协议扩展能力。 QuantCell 一款面向量化交易的开源系统,整合数据采集、AI分析、策略框架和低延迟执行功能,支持多因子模型、GPT市场分析、实时数据流处理及综合风险管理,基于Python+C++双层架构实现,提供可视化界面和多种内置策略。 n8n-workflows 一份面向自动化场景的n8n工作流集合,包含从Telegram消息抓取链接存储到Airtable、Google Drive视频转文字及AI驱动的SEO关键词分析等功能,针对特定场景优化可直接导入使用。 rllm 一款用于语言模型强化学习训练的开源框架,可快速构建、训练和部署基于RL后训练的语言智能体,提供高性能开源模型与训练脚本,支持自定义环境与智能体,适配RLHF、GRPO等多种RL算法,并具备完整评测与日志记录功能。 aisheets 一款面向数据集处理的AI工具,提供类Excel表格界面,无需代码即可使用数千个开源模型构建、丰富和转换数据集,支持本地部署或直接在Hub上使用。 snippai 一款实用的截图识别AI工具,支持精准识别图片中的文字和公式,分析图像内容、转换表格格式并解答图片问题,数学公式智能识别可自动转换为LaTeX格式,具备高精度文字提取能力且完全开源免费。 deepagents 一款基于 LangGraph 框架的开源 Python 库,用于构建复杂 AI 工作流。内置规划工具和子智能体系统,支持任务分解与专门化处理,具备虚拟文件系统、详细系统提示词及完整工具集成,兼容流式输出和人类介入功能。 AionUi 一款用于 Gemini CLI 的可视化聊天对话操作界面,支持多会话管理以同时处理不同项目的 AI 对话,提供可视化文件树、拖拽上传文件、预览代码改动及可视化配置 Gemini API 功能。 resumePolice 一款用于简历优化的开源Dify工作流,通过AI评估系统指出简历问题、解释负面影响并给出修改建议,帮助用户高效修改简历。 gpt-5-coding-examples 一份展示GPT-5编程能力的开源代码示例仓库,包含网站搭建、前端应用等多种类型示例,所有示例均通过单条Prompt生成。 illa-helper 一款基于"i+1"理论的浸入式语言学习浏览器插件。智能替换网页部分词汇为目标语言,支持自定义替换比例和难度,鼠标悬停可查音标、发音及词义,内置TTS双引擎,适配20+种语言。 lazyeat 一款解决用餐时操作设备不便的手势控制开源工具,通过摄像头识别单指滑动、双指点击、OK手势等实现光标移动、页面滚动及播放器控制,内置语音识别模型支持语音输入,兼容Windows和macOS系统。 12-factor-agents 一份开发AI Agent应用的核心设计原则指南,汇总12条涵盖上下文管理、工具调用等议题的工程方法,基于真实项目经验总结,提供生产级设计模式、模块化开发理念和实战案例分析,适用于任何技术栈。 LunaTranslator 一款针对无官方中文版游戏的实时翻译开源工具。通过HOOK技术提取游戏文本并实时翻译,支持OCR图像识别、内嵌翻译显示和多种翻译引擎,还具备模拟器游戏文本提取及语言学习辅助功能。 podcastfy 一款制作播客音频的开源工具,可从网页、PDF、YouTube视频及图片中提取内容,自动生成自然流畅且有逻辑、语气和语音的播客对话,可作为NotebookLM的开源平替。 chunkr 一款文档处理开源项目,用于解决各类文档格式转换与结构化难题。支持PDF、PPT、Word、图片等多类文档处理,集成OCR文字识别与坐标提取以保留排版结构,能自动语义分块适配RAG和LLM应用,并输出HTML、Markdown、JSON等多种结构化格式,支持Docker部署和Python SDK接入。 OpenBB 一款面向量化交易与金融分析的开源数据整合平台,统一获取股票、期权、加密货币等多类金融数据,支持Python API和命令行使用,集成数十种数据源,配备企业级可视化界面和AI Agent功能,支持自定义扩展。 CCPlugins 一款专为Claude Code打造的命令扩展工具,提供24条精心设计的命令,能有效提升输出结果质量并节省重复工作时间,具备智能代码重构功能,可自动识别重构范围并验证迁移结果。 maestro 一款可完全自托管的AI研究助手,整合多个AI Agent协作处理研究任务,包括文档库管理、智能体协作、聊天式交互、写作助手和实时进度追踪功能,支持Docker Compose一键部署及本地LLM和私有搜索引擎。 zotero-arxiv-daily 一款基于GitHub Actions的arXiv论文追踪工具。通过分析Zotero库内容自动推荐相关新论文,生成AI摘要,支持PDF/代码链接聚合及自定义排除规则,全流程自动化执行无需手动操作。 dyad 一款可本地运行的开源AI应用构建工具,通过对话交互构建完整全栈应用,支持React、Next.js主流技术栈及Supabase数据库和认证功能集成。 langextract 一款由谷歌开源的文本提取Python库,能让大模型从非结构化文本中精准提取结构化数据,支持Gemini等模型、可自定义提示词控制输出结构并自动生成交互式可视化界面。 BrowserOS 一款可作为Perplexity Comet开源平替的Agentic浏览器,内置强大AI Agent功能以自动执行在线购物、网页信息收集与总结等网页操作,支持使用本地Ollama模型。 bytebot 一款开源的AI桌面Agent,让AI能代替用户操作电脑完成具体任务,如打开浏览器、管理文件等。自带完整Linux桌面系统,支持自然语言创建任务并实时查看执行过程,可处理本地文档和自动登录账号,兼容主流AI模型。 claude-code-cookbook 一份提升Claude Code能力的配置合集,通过预设命令、专家角色和自动化脚本,让其自动判断并执行代码修正、测试执行、文档更新等常见开发任务。 mini-swe-agent 一款实现自动解决GitHub问题的AI Agent,可自动分析和解决GitHub issues,采用极简架构设计,无需复杂工具链,提供简洁和可视化两种交互界面。 crush 一款高颜值的终端AI编程助手,通过LSP深度理解代码上下文,支持OpenAI、Gemini、Anthropic等主流LLM模型无缝切换及MCP扩展功能。 whisper-app 一款用于音频内容处理的开源转录工具,支持多种音频格式高精度转录及转录后内容总结、关键信息提取等处理,利用AI技术实现高效语音笔记管理并提供可视化仪表板和安全数据存储功能。 qa-use 一款基于BrowserUse实现的Web应用测试平台,支持自然语言描述测试步骤并由AI模拟真人操作浏览器执行自动化测试流程,可处理弹窗、页面异常等复杂交互,能设置定时任务、发送通知提醒并输出含截图和执行记录的详细测试报告,通过Docker一键部署并需配置BrowserUse API Key使用。 sandbox 一款为AI Agent应用开发提供统一沙箱执行环境的开源项目,整合浏览器、终端、文件系统等工具到Docker容器中开箱即用,支持多语言SDK、程序化浏览器控制及预配置MCP服务器,各组件共享文件系统且内置端口转发与服务监控。 AI_NovelGenerator 一款用于长篇小说创作的开源工具,通过智能设定工坊构建世界观、角色和剧情蓝图,采用状态追踪系统和语义检索引擎,确保多阶段章节生成的逻辑连贯性与长程上下文一致性,并提供自动审校机制和可视化工作台。 MeowNocode 一款简洁的开源笔记应用,支持文本记录、画布面板可视化整理思路和AI智能问答,提供热力图统计和每日回顾功能,支持本地及Cloudflare部署。 aimangastudio 一款开源的AI漫画创作流水线工具。提供从剧情生成到分镜布局的全程AI辅助,支持角色风格控制和多页漫画导出,实现端到端创作流程,确保角色和情节的前后一致性,降低漫画创作门槛。 binglish 一款将电脑桌面壁纸与英语学习结合的开源桌面应用,每隔3小时自动更换壁纸并叠加随机英语单词(来源于CET-4、GRE词库),同时显示AI生成的相关图片、例句和翻译。 cc-switch 一款跨平台的AI编程工具配置管理工具,用于一站式管理和切换Claude Code与Codex不同供应商配置。支持一键切换、系统托盘快捷操作、VS Code插件自动配置和配置向导,具备原子写入和失败回滚机制,兼容Windows、macOS、Linux及WSL环境。 mcpstore 一款用于AI Agent开发的MCP服务管理工具。提供一站式平台实现MCP服务的可视化管理与多Agent隔离部署,基于Python开发并支持Vue前端界面、RESTful API接口及LangChain原生集成。 flycut-caption 一款AI字幕处理工具,支持高精度识别视频语音生成字幕、可视化编辑和视频剪辑功能,基于Whisper模型开发。 Foxel 一款用于统一管理分散文件的私有云存储工具,支持AI语义搜索图片和文档内容、多格式文件预览及完善的权限分享功能,可通过Docker一键部署并提供详细安装教程。 Dayflow 一款用于记录电脑日常活动的 Mac 开源应用。能自动生成含 AI 摘要的每日时间线,通过 1 FPS 低频录屏分析活动,支持延时回放和分心时刻高亮,提供 Gemini 云端或本地模型分析方式,数据本地保存并自动清理旧录像。 hacker-news 一款基于 Hacker News 的播客工具,可每天自动抓取热门文章,通过 AI 生成中文总结并使用 Minimax Audio 生成语音播报,支持网页、播客 App 收听及 RSS 订阅,提供摘要和完整文本,可通过 Cloudflare 部署或演示 Demo 体验。 reddit-ai-trends 一款用于监控Reddit AI社区的开源工具。自动收集热门讨论并生成综合趋势分析,支持中英双语报告输出、按年月日存储报告、MongoDB数据持久化和Docker容器化部署。 opendataloader-pdf 一款专为AI应用场景设计的PDF处理开源工具,能完整保留文档标题层级、列表及表格结构,提供JSON等结构化输出,内置AI安全过滤机制自动识别提示注入内容,无需GPU即可本地化批量高效处理。 chrome-devtools-mcp 一款用于前端开发的 Chrome DevTools MCP 工具。支持 AI 驱动的网页自动化测试、调试与优化流程,可模拟真人交互、设备环境及运行 JavaScript 代码,项目代码完全开源且支持扩展。 Newelle 一款专为Linux打造的开源桌面AI助手,支持语音转文字、文字转语音及与PDF和文档进行AI对话,提供文件管理功能,可在终端执行命令并支持扩展自定义能力,基于GTK原生开发,兼容ChatGPT、Claude、Ollama等多种AI模型和服务商。 your-source-to-prompt.html 一款针对开发者代码协作场景的工具,通过浏览器运行HTML文件显示本地项目结构并勾选所需代码文件,自动整合项目结构与完整代码内容生成可直接发送给AI的文本,支持配置预设文件避免重复操作。 asxiv 一款辅助阅读arXiv学术论文的AI工具,输入arXiv ID即可在线阅读PDF并通过右侧AI对话问答总结理解内容,采用Gemini模型且项目代码完全开源可扩展支持更多模型服务商。 ququ 一款免费的中文语音输入工具,可精准识别中文语音并通过AI自动过滤口头禅、修正错误表述,根据当前应用智能调整输出格式,使用阿里FunASR模型在本地运行,支持接入国产AI模型,通过全局快捷键一键唤醒并自动粘贴。 Lucy-Edit-ComfyUI 一款基于 ComfyUI 的视频编辑工作流,通过文本描述对视频进行精确编辑,支持服装更换、角色替换、物体插入和场景变换,能保持原视频的人物动作及画面不变。 TranslateBookWithLLM 一款专为大规模文本翻译设计的开源工具,能直接处理 EPUB、SRT 和纯文本等多种格式文件并保持原有结构格式,基于本地 Ollama 模型或 Gemini API 实现,采用智能分块处理技术确保上下文连贯性,支持 Docker 快速部署及 Web 界面与命令行两种使用方式。 chef 一款基于Convex构建的AI应用构建工具,用于后端开发。能一键生成完整全栈应用,包含内置数据库、零配置身份验证、文件上传、实时UI和后台工作流,支持多种AI模型及CLI工具与Web界面两种使用方式。 strix 一款由AI驱动的开源安全测试Agent工具,替代人工进行自主测试。通过动态运行代码和实际攻击验证漏洞,减少误报,具备完整黑客工具包、全面漏洞检测、自动修复报告及分布式代理协作功能。 Paper2Agent 一款将研究论文代码库转换为可交互AI Agent的开源工具,通过多Agent系统分析代码库并生成MCP服务器,与Claude Code等集成,提供环境隔离和依赖管理,支持多科研领域,已预制知名工具Agent,可对话式使用复杂科研工具。 mcp-pointer 一款辅助前端开发的开源MCP服务器,通过快捷键选中页面元素自动获取CSS属性、HTML结构、React组件名等详细信息,搭配浏览器插件并基于WebSocket实现与AI工具的实时连接通信。 noScribe 一款专为学术研究和新闻采访设计的AI语音转录工具,支持自动识别不同说话人、60多种语言转录及几乎所有音视频格式自动转录,具备专业编辑器校对结果与音频同步播放校对功能,可完全离线运行。 koboldcpp 一款基于llama.cpp构建的大模型部署工具,集成图像生成、语音识别、文字转语音等AI功能,以单个可执行文件实现开箱即用,支持CPU和GPU运行,提供兼容OpenAI、Ollama的API接口,适配Windows、macOS和Linux全平台。 extractous 一款文档解析工具,可提取PDF、Word等多种格式文件内容及通过OCR识别图片文字,内存占用低且处理速度比unstructured-io库快25倍,提供简洁易用API以提取文本和元数据。 spec-kit 一款用于规范AI工具开发流程的工具,通过自然语言明确需求、统一规格模板和强制评审机制将模糊需求转化为高质量可追溯代码,支持Claude Code、Gemini CLI、Cursor等AI工具且开发过程完整记录可追溯。 glass 一款辅助信息记录的开源桌面应用,可隐形监听屏幕和音频内容,将其转化为结构化知识。支持智能问答、会议记录与摘要生成,并兼容OpenAI、Gemini及本地LLM等多种AI模型。 vscode-ai-toolkit 一款用于简化Agent应用全流程开发的VS Code插件,集成模型浏览、Playground测试、Agent构建、批量运行和性能评估等完整功能,支持GitHub、OpenAI、Anthropic等模型目录浏览。 presentation-ai 一款可作为Gamma开源平替的AI演示文稿生成器,输入主题即可自动生成完整PPT大纲和精美幻灯片,支持多种主题风格、自定义配色方案及根据内容智能配图。 google-search 一款基于 Playwright 实现的本地 Google 搜索工具,作为付费 SerpAPI 的开源平替方案。能智能绕过反爬虫检测,支持浏览器指纹管理与状态保存恢复,可集成到 AI 助手提供实时搜索能力,具备原始 HTML 获取和页面截图功能,完全开源免费且支持 TypeScript 扩展。 shimmy 一款本地运行AI模型的开源工具,提供快速可靠的本地AI推理及完整OpenAI兼容API,基于Rust构建,单文件仅5MB,启动时间不到100ms,内存占用仅50MB,无需配置且可自动发现多种模型源。 ROMA 一款DeepResearch开源平替项目,通过递归层次结构自动拆解复杂问题为可并行子任务,保持透明执行过程便于调试优化,内置通用任务解决器等专业智能体,支持商用且部署便捷。 uniprof 一款专注于性能分析优化的AI开源工具。支持一键分析Python、Node.js等多种语言应用,自动选择最优分析器并生成火焰图可视化图表,通过容器化执行环境免去复杂配置,还可与Claude等AI工具集成。 Nano-Bananary 一款开源AI图像编辑工具,集成图像生成有趣玩法,基于Nano Banana模型实现无需提示词一键生成图像并可作为下次编辑输入,支持局部涂选、放大预览、横置对比及滑块对比功能。 Pixelle-MCP 一款基于 MCP 协议的 ComfyUI 工作流转换工具,能将任意 ComfyUI 工作流零代码转换为 AI 助手可调用工具,支持 TISV 全模态内容生成、与多种 MCP 客户端无缝集成及多 LLM 接入,提供内置 Web 聊天界面和 Docker 一键部署能力。 short-video-factory 一款全流程自动化的短视频制作开源工具,支持从文案生成到成片剪辑的一键操作,集成AI文案创作、语音合成、智能混剪和批量处理功能,支持多语言且完全本地化运行确保数据安全。 AutoAgent 一款面向技术小白的LLM智能体开发工具,通过纯自然语言创建功能完整的智能体,内置自管理向量数据库和Agentic-RAG,支持多种LLM提供商及函数调用、ReAct交互模式,在GAIA基准测试中表现达顶级水平。 claude-init 一款专为国内开发者定制的零门槛中文AI编程套件,提供完整的中文本地化版本Claude Code,从安装到配置再到AI指令全程中文,集成上下文管理、MCP服务器等实用功能。 MathModelAgent 一款专为数学建模设计的AI Agent,自动化完成从问题分析、模型建立、代码编写到论文撰写的全流程,采用多智能体协作架构,支持主流AI模型配置,提供轻量化部署方式和格式规范的论文生成功能。 opik 一款面向LLM应用开发团队的开源评估平台,提供全生命周期解决方案,具备全面可观测性、强大评估系统、生产级监控、丰富集成支持和智能优化工具,支持云端托管与本地部署。 youtu-agent 一款基于openai-agents构建的AI Agent开发框架。帮助开发者简化复杂配置、工具集成和性能优化流程,支持YAML配置驱动自动生成智能体文件,采用完全异步架构实现高性能并发执行,兼容多种模型API并在WebWalkerQA和GAIA基准测试中取得良好成绩。 AiNiee 一款专注于AI翻译的开源工具,专门处理复杂长文本翻译。支持游戏、电子书、字幕等多格式文件,兼容主流工具,提供在线API和本地模型两种使用方式,采用轻盈翻译格式、思维链翻译、AI术语表和上下文关联技术确保连贯性与准确性。 AI-Video-Transcriber 一款用于视频转录与智能摘要的开源工具,支持YouTube、TikTok、B站等30+主流平台,可通过GPT-4o实现转录文本的自动纠错、断句处理及多语言摘要生成。 AIPex 一款GitHub开源的浏览器自动化工具,通过自然语言控制浏览器执行点击、填写、截图、数据提取等任务,集成30余种自动化工具,无需编程基础即可精准操作网页内容。 Windows-Use 一款让大语言模型直接控制Windows系统的开源项目,支持打开应用、按钮点击、文字输入等基础交互及自动化执行命令,可实时捕获理解界面状态并智能判断下一步操作,不依赖传统计算方式。 WenetSpeech-Yue 一份迄今为止最大的粤语语音数据集,包含21800小时覆盖十个不同场景的语音数据,提供说话人身份、年龄、性别等多维度标注信息及Conformer、Whisper等多个预训练模型。 Prompt-Tools 一款专为提示词管理设计的桌面工具,提供本地化的创建、编辑、搜索和分类整理功能,支持标签管理与快速检索,基于Rust构建且开源免费,适配Windows、macOS和Linux系统。 get_jobs 一款招聘自动化工具,能自动筛选主流招聘平台岗位并投递简历。支持AI生成个性化打招呼文案、图片简历发送、智能过滤不合适职位及定时投递,需配置JDK21、Maven和Chrome环境使用。 Claudable 一款专为快速构建Web应用的AI编程助手,将本地CLI终端编程Agent与Lovable结合。通过自然语言描述想法生成生产级Next.js应用,具备实时预览、自动错误检测修复、Supabase数据库集成及一键部署到Vercel的功能。 ebook-to-mindmap 一款开源的电子书内容处理工具,能一键将EPUB和PDF格式电子书转换为文字总结及思维导图。支持社科类与小说类书籍,具备智能章节检测、Google Gemini和OpenAI双AI服务支持及高效缓存机制,提供交互式思维导图功能。 SparkyFitness 一款提供全面健身追踪和管理的开源工具,涵盖营养追踪、运动记录、身体测量、每日打卡等核心功能,支持自托管以保护数据隐私,还集成AI营养教练并可通过聊天方式记录饮食和运动。 paper-search-mcp 一款用于学术研究的MCP服务器,支持arXiv、PubMed等多平台统一搜索并一键下载论文PDF,提供统一信息格式便于整理,通过异步处理提升搜索速度且可扩展添加新平台。 super-agent-party 一款具备企业级功能的3D版AI桌面伴侣,实现知识库集成、实时联网、永久记忆等功能,支持代码执行和多模态能力,可一键部署到微信、QQ、B站等多个平台。 claude-code-statusline 一款用于 Claude Code 终端的增强状态栏工具。支持模块化组件系统,可自由组合18个组件显示成本追踪、MCP服务器监控、Git信息等功能,提供三款主题和自定义支持,具备智能缓存系统提升性能,兼容多操作系统并支持一键部署。 nanobanana 一款用于终端的Gemini CLI插件,支持文生图、图像编辑修复和文件管理功能,能通过一条命令批量生成多种风格变体及多种尺寸的应用/网。 Aictionary 一款支持离线查询的开源词典工具,内置25000+高频单词提供中文解释、音标及例句,词库外单词自动调用AI生成词义,支持快捷键操作、历史记录保存及多系统兼容。 agent-lightning 一款降低Agent应用自我优化技术门槛的开源项目,通过添加简单事件追踪代码,应用强化学习、自动提示词优化等多种算法持续改进Agent表现,兼容主流Agent框架及纯Python项目,采用轻量级架构设计,对原代码侵入低,支持pip安装并提供丰富示例和完整文档。 Skill_Seekers 一款用于技术框架学习的开源工具,可混合爬取文档网站、GitHub仓库和PDF文件并转换为Claude可用的Skill技能包,具备文档与代码冲突检测、深度代码分析、异步爬取提速及本地AI增强功能。 DeekSeek-OCR---Dockerized-API 一款基于DeepSeek-OCR模型开发的PDF转Markdown开源工具。能准确识别文档内容并完整保留原始格式结构,支持自动提取图片、标准化Markdown转换及纯OCR提取功能。 Math-To-Manim 一款用于制作数学和物理交互动画的开源AI工具,通过文字描述自动生成完整动画,包含LaTeX公式和镜头设计,全流程自动化,同时输出动画代码和学习笔记文档,并提供多领域示例。 open-whispr 一款基于OpenAI Whisper开发的桌面语音输入工具,支持本地和云端处理模式,通过全局快捷键启动录音并自动转写粘贴文字,集成GPT-5等最新AI模型可语音指令处理文字,提供悬浮面板和本地历史数据存储,兼容macOS、Windows和Linux系统。 DeepAnalyze 一款基于DeepSeek-R1和课程学习训练方法开发的开源数据科学工具,能自主完成数据清洗、探索、建模、可视化到报告生成的全流程,支持多种格式数据处理,提供开源模型、代码及训练数据集,可通过vLLM部署使用。 deepseek_ocr_app 一款基于DeepSeek-OCR模型的OCR前端应用,支持拖拽上传图片、四种核心OCR模式及结果边界框可视化,可导出HTML或Markdown格式,通过Docker一键部署使用。 scrapecraft 一款开源的网页抓取编辑器,通过AI智能助手自动生成Python爬虫代码,降低开发门槛,支持多网址批量抓取、动态数据结构定义和实时WebSocket流式处理,提供表格与JSON数据展示及CSV/JSON导出功能。 agent-starter-react 一款用于快速搭建专业级AI语音助手的开源起始框架,支持实时语音交互、视频流、屏幕共享及虚拟头像功能,可与LiveKit Agents无缝对接,提供音频可视化、音量监控和主题切换,支持自定义品牌与界面。 XCodeReviewer 一款智能代码审查工具,通过独创的What-Why-How分析模式,从安全性、性能等多维度评估代码质量,提供问题风险解释及具体修复代码示例,支持10多种主流编程语言与多仓库集成,可通过Docker一键部署或本地安装运行。 blinko 一款专为快速捕捉和整理思维碎片设计的AI增强卡片笔记工具。支持快速记录、Markdown格式和自然语言搜索笔记内容,数据存储在个人服务器保障隐私安全,Windows版本提供离线语音输入,支持开箱即用安装包下载和Docker本地一键部署。 contextgem 一款开源LLM框架,能从文档中提取结构化信息并自动标注来源,通过阅读整份文档理解上下文发现潜在问题,支持多种格式和主流AI模型,安装使用简便且提供详细示例文档。 fonoster 一款用于搭建智能电话客服的开源可编程电话通信解决方案,支持自动接听、挂断、语音播放、呼叫转接等通讯操作,集成Google语音API处理语音识别和合成,采用S3存储通话录音数据,支持OAuth2和JWT认证,通过Docker快速部署。 chonkie 一款超轻量级文本分块库,满足快速高效处理各种文本分块需求,体积仅505KB,提供8种分块算法、32种实用工具集成,支持多步骤分块和精炼工作流及56种语言处理。 open-notebook 一款Google Notebook LM的开源平替工具,支持16多种主流AI模型提供商,允许上传PDF、视频、音频等多种内容格式并一键生成专业多人播客节目,实现完全私有化部署以保障数据隐私安全。 PromptWorks 一款为团队提供完整Prompt资产管理与大模型运营的开源解决方案,支持提示词全生命周期管理、版本迭代、差异对比、标签分类及多模型A/B测试与效果评估,所有操作记录可追踪恢复,提供详细部署文档,支持Docker一键启动和本地开发运行。 dexter 一款开源的AI自主金融研究Agent。能智能规划任务、自主执行分析并验证结果,具备实时金融数据接入能力,采用多Agent架构,包含规划、执行、验证和答案合成等专门组件。 OpenSpec 一款用于规范驱动开发的AI编程辅助工具。统一管理变更提案、任务清单和规范更新,支持主流AI工具原生斜杠命令,提供结构化文件夹管理和自动生成规范增量文件功能,确保开发目标一致和变更历史可追踪。 Paper2Video 一款学术内容自动化处理工具,可一键将学术论文转换为完整演讲视频,能从LaTeX论文源码生成专业幻灯片,集成语音合成和虚拟人像创建逼真演讲者,具备智能光标引导突出重点,基于GPT-4和Gemini等大模型确保内容质量。 nanochat 一款面向AI开发者的开源LLM训练项目,实现从分词到推理的完整流程。支持低成本快速训练ChatGPT风格模型,提供自动性能评估和Web聊天界面,代码简洁仅8000多行。 lyra-exporter 一款用于统一管理多平台AI对话的开源工具,支持Claude、Gemini等平台对话收集与快速搜索,可按图片附件等条件筛选并导出为Markdown文档,通过油猴脚本实现一键导出,提供对话列表和时间线视图。 claude-code-templates 一款解决Claude Code配置难题的开源项目模板集合。提供100+专业AI Agent模板、自定义斜杠命令及外部服务集成,支持通过可视化界面一键安装,包含实时分析工具和对话监控功能,适用于快速上手的开发者。 Everywhere 一款具备情境感知能力的桌面交互式AI助手,通过快捷键在任何位置即时调用,自动感知并理解屏幕内容,支持多种主流AI模型、网络搜索和Markdown渲染,目前仅适用于Windows系统。 AI_Travel_agent_Streamlit 一款集成OpenAI、天气API和搜索引擎的智能旅行助手应用。能根据需求生成详细行程安排,提供实时天气查询、景点餐厅信息搜索、预算计算和YouTube视频推荐功能,支持本地运行及Streamlit Cloud免费托管,适配移动端使用。 commonforms 一款用于静态PDF表单转换的开源工具,能自动识别表单区域并转换为可填写交互式表单。基于深度学习模型FFDNet,支持检测文本框、复选框、签名区域等多种字段类型,提供命令行工具和Python API两种使用方式。 claude-code-config-manage-gui 一款基于 Tauri 开发的 Claude Code 配置管理工具,用于简化 Claude API 配置流程。支持多账号管理、项目目录关联、一键配置切换和 WebDAV 云同步,提供 SQLite 与 MySQL 存储方式,兼容 Windows、macOS、Linux 平台。 gpu-kill 一款专注于GPU管理的开源命令行工具,可实时监控GPU使用率、内存、温度和运行进程,支持强制终止卡死进程、检测挖矿恶意程序、远程管理多台服务器GPU资源及通过AI助手自然语言控制操作,兼容多品牌芯片和跨操作系统。 computer-use-preview 一款基于Gemini 2.5模型的浏览器自动化工具,通过自然语言描述即可让AI自动控制浏览器完成搜索、点击、填表等复杂操作,无需编写复杂脚本。 neutts-air 一款开源免费的语音合成模型,用于生成超逼真自然语音。支持仅需3秒音频样本的即时声音克隆,采用轻量级设计可在本地设备流畅运行,具备隐私安全保护和生成音频责任追溯能力。 Pile 一款保障隐私安全的桌面日记应用,支持本地创建日记文件夹存储数据,集成AI反思生成深度见解与智能搜索问答功能,兼容OpenAI API或本地Ollama模型,提供简洁直观的界面设计。 apple-mcp 一款开源的 MCP 服务器,用于 Mac 原生应用自动化操作。支持信息、邮件、日历等应用的基础及链式任务执行,可配置到 Claude Desktop 或 Cursor 等 AI 助手使用。 Smart-AutoClicker 一款面向Android用户的开源自动点击工具,通过图像识别技术智能识别屏幕特定元素并触发点击或滑动操作,支持复杂触发条件设置、计数器操作、流程控制及定时点击等功能。 ollm 一款专为消费级GPU优化的大模型轻量化推理库。支持在8GB显存运行80B参数模型并处理5万字长上下文,通过智能权重和缓存分层管理、FlashAttention优化实现高内存效率,无需量化保持原始精度,兼容主流模型及多模态输入。 yutu 一款用于YouTube频道管理的自动化工具,可实现视频上传编辑、播放列表管理、评论回复等重复性操作的自动化处理,支持命令行界面和MCP服务器集成,能与Claude Desktop、VS Code等工具结合通过AI助手进行操作。 Local-NotebookLM 一款将PDF文档转换为播客形式音频内容的开源工具。通过提取和智能处理PDF文本,自动组织成对话形式并生成高质量音频,支持15种播客风格、多种LLM服务和TTS模型,提供Web界面与API接口,可通过Docker一键部署及本地模型离线运行。 Code2Video 一款通过代码自动生成高质量教育视频的工具,能智能解析知识点并生成教学视频脚本,采用三个AI智能体协作优化视频质量,基于Manim生成可执行代码,支持图标和视觉素材自动集成。 computer_use_ootb 一款用于自动化桌面操作的开源工具,可帮助执行整理文件、填写表单等重复性任务,提供可视化界面且开箱即用,支持Windows和macOS系统及手机远程控制,基于Claude 3.5等多种AI模型,允许本地和云端部署。 youtube-ai-extension 一款集成于YouTube页面的浏览器插件,支持与视频实时对话提问、自动生成摘要及专业术语解释,具备多语言交互和上下文感知能力。 eclaire 一款完全本地运行的开源AI助手,支持文档、图片、笔记、书签等数据类型的统一管理并通过本地LLM模型提供问答对话,内置强大的文档处理能力,支持PDF、Docx、PNG等多种格式。 parlant 一款用于开发AI应用的开源框架。将系统提示词规则拆分为独立模块,根据对话上下文动态加载3-4条相关规则,避免模型注意力分散,提升执行准确性,易于维护扩展且提供完整可解释性,内置React聊天组件方便集成。 mcp-server 一款用于投资分析和市场研究的Financial Datasets MCP服务器,可在同一对话中直接获取股票价格、财报、新闻及加密货币等实时数据,支持Python和uv包管理器安装,配置API密钥后即可在支持MCP的AI助手上使用。 Handy 一款支持完全离线使用的语音转文字开源工具,按下快捷键即可将语音快速转换为文字并自动粘贴到任何应用,采用本地化处理保障隐私安全,支持Whisper和Parakeet V3等多种AI语音模型选择,具备高度可扩展性且提供跨平台开箱即用安装包。 anki-hyper-tts 一款为Anki设计的语音增强插件,提供专业级语音合成功能,内置多种高质量TTS服务,支持为多语言卡片添加自然流畅语音,具备简单易用界面和批量处理能力。 Logics-Parsing 一款端到端文档解析模型,可将复杂文档直接转换为结构化HTML格式,能准确识别科学公式和化学结构,自动过滤页眉页脚等无关内容,支持研究报告、学术论文等多种输入,在基准测试中评分超越众多模型。 hyprnote 一款本地优先的AI会议笔记应用,能捕获系统音频和麦克风输入实现实时转录,支持Ollama或LM Studio运行本地模型,所有数据保留在设备上且全程可离线运行,还提供自定义笔记模板和稍后整理功能。 next-ai-draw-io 一款基于自然语言生成draw.io图表的开源工具,支持文字生成图表、图片复制优化及实时对话修改,采用Next.js+AI SDK+react-drawio技术栈,调用OpenAI API处理自然语言并精准编辑图表特定部分。 compounding-engineering-plugin 一款用于AI辅助编程的开源插件,旨在让AI开发遵守工程规范并积累质量。通过Plan-Work-Review工作流,深度分析代码库生成详细Issue,利用隔离环境执行开发,由多个专用Agent并行审查代码。 waveterm 一款集成图形化功能的开源终端工具,提供拖拽界面组织终端块、编辑器、浏览器和AI助手,内置远程文件编辑、多格式文件预览系统,深度集成本地或第三方AI模型,支持跨平台使用。 claude-code-marketplace 一个由开源社区驱动的Claude Code命令市场,用于快速安装和管理第三方插件与Agent。涵盖代码分析、重构、安全审计等十多个分类,已汇集48个实用命令,支持开发者提交自定义命令。 mgrep 一款具备AI语义理解能力的代码与文件搜索工具,支持用自然语言搜索代码、图片和PDF等文件,通过语义检索模型理解搜索意图并静默索引文件,可与Claude Code、Codex等AI助手集成以减少Token消耗。 ccNexus 一款 Claude Code 智能 API 轮换代理工具,支持 Claude、OpenAI、Gemini 等多种 API 格式管理与自动轮换,提供可视化界面和实时用量统计,本地数据存储且无需安装依赖。 continuous-claude 一款用于自动化代码开发流程的开源工具,能让Claude Code循环运行指定次数,自动完成创建分支、提交代码、发起PR及合并等操作,整个过程无需人工干预。 open-coreui 一款轻量级 Open WebUI 替代方案,无需复杂依赖,内存占用和硬件要求大幅降低,保留原版前端界面和使用体验,支持多系统桌面客户端和后端服务器。 ai-dev-gallery 一款专为Windows开发者设计的AI开发工具,提供25+涵盖图像、文本、语音等领域的可交互AI示例,支持从Hugging Face和GitHub浏览下载模型,示例包含完整C#源代码且可一键导出为Visual Studio项目。 zotero-pdf-translate 一款Zotero翻译辅助插件,支持在Zotero中直接翻译PDF、EPub等多种格式文献的选中文字、标题和摘要,可将翻译内容一键添加到笔记,集成20+种翻译服务并提供独立窗口对比多个结果以提升准确性。 MobiAgent 一款移动端AI自动化开源框架,能让AI像真人一样操控手机完成复杂任务,提供开箱即用App和自定义执行流程,内置经验检索模块可根据历史任务自动优化规划,包含MobiMind智能体模型、AgentRR加速框架和MobiFlow评测基准。 deface 一款用于视频和照片人脸匿名化的开源工具,能自动检测并处理移动或遮挡人脸,支持模糊、马赛克等多种匿名方式及摄像头实时处理和批量操作,基于CenterFace深度神经网络实现快速准确检测,兼容Windows、macOS和Linux系统。 CodeMachine-CLI 一款开源的CLI终端AI编程工具,能将需求文档转换为生产级可运行代码。内置多个专业AI智能体协作,同步处理架构设计、代码编写、测试和部署等开发环节,大幅缩短项目周期。 openmcp-client 一款开源一体化MCP Server调试器,集成Inspector和MCP客户端基础功能,支持资源协议、工具、Prompt测试及交互测试模块验证效果,可配合SDK快速部署为Agent应用,支持多编辑器插件安装和多种大模型接入。 sam-3d-body 一款专注人体重建的开源模型,能从单张照片精准重建包含身体、手部和脚部完整细节的全身3D人体网格。基于Momentum Human Rig参数化表示,支持复杂姿态估计和交互式调整,适用于游戏开发、影视制作、AR/VR等场景。 sam-3d-objects 一款用于快速3D建模的开源项目,只需一张照片即可重建物体完整的3D模型,包括形状、纹理和空间位置。擅长处理遮挡、小尺寸物体及杂乱场景,支持多物体同时重建并保持空间关系,提供在线演示和Jupyter示例代码,可导出3D Gaussian Splatting格式。 YPrompt 一款开源的提示词管理系统,内置GPrompt四步法引导完善提示词并分析优化,支持版本管理、历史回滚、标签分类及收藏,提供多种认证方式和双数据库切换,可通过Docker一键部署并适配多设备响应式界面。 karpathy 一款基于 Google ADK 和 Claude 构建的 AI Agent,实现机器学习工作流自动化。能自主执行数据处理、模型训练与评估,通过沙盒环境一键配置开发环境并集成常用 ML 库,提供 Web 交互界面便于监控输出文件。 reader3 一款用于与AI共读的轻量级EPUB阅读器。将电子书按章节拆分,每次展示一章节内容以便轻松复制文本给大模型讨论分析,界面简洁仅保留核心阅读和导航功能,通过文件夹管理书库,使用uv运行命令即可启动。 deepseek-ocr-client 一款基于DeepSeek-OCR识别模型的桌面客户端,支持拖拽上传图片快速识别文字并可点击指定区域复制,支持导出含Markdown和图片的ZIP文件及GPU加速以提升处理速度。 ai-financial-agent 一款用于股票投资研究的AI对话工具。通过聊天方式获取美股多维度投资信息,包括实时和历史股价、财务报表、期权及内部交易数据,并以图表直观展示,基于Financial Datasets API、LangChain和OpenAI构建,支持自定义扩展。 openchatbi 一款基于 LangGraph 和 LangChain 构建的开源智能 BI 工具,通过自然语言描述自动转换为 SQL 语句并执行查询、生成可视化图表,支持 MCP 配置接入外部工具扩展功能及知识库整合以回答复杂问题,并提供直观 Web UI 界面。 WriteHERE 一款用于AI长篇写作的开源框架,通过递归任务分解将复杂写作拆分为子任务,动态整合检索、推理和写作能力,实现类人自适应规划机制并能实时可视化写作过程,支持小说创作和技术报告模式。 PairTranslate 一款开源的浏览器翻译插件,支持双语对照及词级、段落级、全页面等多种翻译模式,可一键翻译输入框内容,兼容 Google、DeepL 及 ChatGPT、Gemini 等翻译服务,针对 AI 翻译优化降低 Token 消耗,支持数学公式解析和 Markdown 格式复制,适配主流浏览器。 davia 一款用于代码库文档生成的开源工具,能够自动分析代码并实时生成直观可视化文档页面,支持类似Notion的编辑体验和可交互白板图表,兼容Anthropic、Google等主流AI模型服务商。 Alle 一款开源的邮件管理平台,能聚合多个邮箱邮件到统一界面管理,通过邮箱转发实现无需密码查看,内置AI提取验证码和智能分类,支持基于Cloudflare Workers创建临时邮箱并提供部署指南。 claude-scientific-skills 一款基于Claude的科研助理工具,可通过一句话描述需求自动调用相关工具执行多步骤科学工作流,涵盖生物信息学、化学信息学等多个领域,集成25+科学数据库、50+Python包及实验室自动化等工具,提供详细文档和代码示例并支持一键安装配置。 skyvern 一款基于视觉AI大模型的浏览器自动化工具,支持模拟人类操作如填写表单、下载文件和账号登录,能通过视觉识别理解网页内容,即使网站布局改变也能保证工作,内置工作流构建器可可视化编排任务,项目代码开源且允许本地部署运行。 sticker-dream 一款面向家长的DIY涂色贴纸生成工具,能根据语音描述生成并打印对应图案的黑白线稿贴纸。通过Whisper实现语音转文字,借助Google Imagen生成线稿,支持蓝牙或USB连接打印机使用。 comic-translate 一款基于AI模型的漫画翻译开源工具,支持十多种语言互译,能自动检测对话气泡和文本区域并填充翻译内容,提供可视化操作界面,兼容Windows和macOS系统。 AutoHedge 一款量化交易自动化工具,通过四个智能体协作完成从市场分析到订单执行的全流程。具备实时数据分析、内置风险管理、结构化输出及RESTful API集成能力,支持日志追踪和快速配置使用。 adk-go 一款基于Go语言的AI Agent开发框架,支持构建从简单任务到复杂多Agent系统的AI应用,采用符合Go语言习惯的API设计,具备丰富工具生态、代码优先开发模式、模块化多代理系统设计,支持容器化和云原生部署,且模型无关可兼容多种AI模型。 skid-homework 一款面向学生和家长的开源作业辅助工具,支持上传文件、拍照识别和PDF解析题目,可自定义答案风格,提供纯键盘操作和丰富快捷键,浏览器内运行且兼容多端,左撇子友好设计。 vibesdk 一款面向无代码基础用户的应用生成工具,通过自然语言描述即可快速生成任务看板或数据展示页面等应用,具备分阶段代码生成与实时预览、自我纠错功能,支持一键部署到Cloudflare平台并导出代码到GitHub仓库。 edit-mind 一款为视频剪辑提供智能管理的开源桌面应用,通过本地AI深度分析视频内容提取转录文本、人脸、物体等信息,支持自然语言搜索定位片段并辅助剪辑生成视频。 call-center-ai 一款基于Azure和OpenAI GPT构建的AI客服系统,能替代人工处理大量重复性咨询,支持24小时接听拨打电话、多语言交流、实时语音对话及自动记录生成待办事项,采用云原生无服务器架构可弹性扩展。 lingarr 一款开源字幕翻译工具,能自动翻译字幕文件至目标语言,支持DeepL、OpenAI等11种翻译服务,可与Plex、Jellyfin集成实现自动化翻译,提供RESTful API并支持批量并发任务,通过Docker快速部署。 paper-burner-x 一款面向学术论文处理的开源工具,集文献识别、翻译、阅读与智能分析于一体。支持多种格式导入、极速并发翻译并保留格式,具备前端Agent智能分析与自动生成思维导图等功能,数据本地存储且无需安装即可使用。 docutranslate 一款用于本地文档翻译的开源工具,能在保持原格式下翻译PDF、Word等十余种文件,支持精确识别表格、公式和代码块,自动生成术语表保证一致性,兼容主流AI模型平台并允许自定义提示词与并发翻译。 mini-kode 一款教学导向的AI编程助手,帮助理解AI编程助手实现原理,具备Coding Agent完整架构,涵盖统一工具系统、MCP集成、Agent循环和权限管理等核心组件,代码结构清晰且注释详尽,基于OpenAI SDK构建,兼容多种主流LLM,支持交互式和命令行两种使用模式。 VibeVoiceFusion 一款基于微软VibeVoice模型的多人语音合成Web应用,提供可视化界面管理说话人、编辑对话和生成语音,支持声音克隆、中/英工作流,经显存深度优化最低6GB显存即可运行,提供Docker部署和本地安装方式。 Texo 一款专注于数学公式图片识别的开源OCR模型,能将数学公式图片快速转换为LaTeX代码,模型仅20M参数,推理速度快且支持浏览器运行,完全免费开源,可在消费级GPU上训练,在多个测试集上BLEU分数达0.85以上,提供完整训练代码和详细技术文档。 second-brain 一款将本地文件转换为可搜索RAG知识库的开源工具。通过自然语言或关键词进行文本和图片的多模态搜索,支持多种文件格式,可结合本地或云端AI模型实现智能问答,所有数据本地处理以保护隐私。 presentation-ai 一款用于制作演示文稿的开源AI工具,输入主题和要求即可自动生成大纲、内容与配图,提供9种主题可选,支持实时编辑、自定义样式、多语言、Markdown编辑及幻灯片拖拽排序,可本地部署保障数据安全。 smart-excalidraw-next 一款基于自然语言生成图表的开源工具,支持流程图、架构图等20多种类型图表生成,通过智能箭头优化算法确保连线不交叉、布局清晰,集成Excalidraw可自由编辑样式,数据保存在本地浏览器保障隐私安全。 Mind-Map-Wizard 一款利用AI辅助的思维导图生成工具,输入主题即可自动生成含关键概念和层级关系的思维导图,支持在线编辑调整、自定义快捷键、多种格式导出,数据存储于浏览器本地确保隐私安全,可直接在线使用或本地部署。 MedRAX 一款开源医学影像分析智能体,整合视觉问答、图像分割、病灶定位等7大类专业工具,基于LangChain和LangGraph框架构建,使用GPT-4o作为核心大模型,无需额外训练即可智能调用工具完成复杂医学影像分析任务。 vibe-coding-prompt-template 一套系统化的AI开发工作流,用于将产品想法快速转化为可运行的MVP。包含市场调研验证、需求文档编写、技术方案设计、AI指令配置生成及代码自动构建五个阶段,支持10+种AI编程工具,提供提示词模板和操作指南。 gamewiki 一款游戏内信息查询工具,能通过快捷键呼出悬浮窗显示Wiki和AI问答,无需切换即可获取攻略。内置4款游戏完整知识库及100多款游戏Wiki访问功能,支持多语言和网页浏览,适用于Windows 10/11系统。 conar 一款基于AI的数据库管理工具,通过接入Claude、ChatGPT等模型辅助编写和优化SQL查询语句,采用Electron开发跨平台桌面应用,支持PostgreSQL数据库连接信息加密云端存储及多系统安装包与二次开发。 claude-code-viewer 一款为Claude Code提供直观Web操作界面的开源工具,支持实时查看对话日志、管理会话、Git差异对比与提交,可上传多种格式文件并预览,能设置定时任务自动继续执行,通过npm安装运行,兼容macOS和Linux系统。 nofx 一款基于大语言模型打造的通用架构AI交易操作系统,完成从决策、交易到复盘的闭环,能自动分析市场数据并从历史交易中学习优化策略,支持多模型竞争对比和三大交易所一键切换,提供专业级监控界面。 auto-subs 一款跨平台的音视频字幕生成工具,能一键快速转录多语言音视频内容,自动识别并标记不同说话人,提供现代化字幕编辑器和灵活样式控制,支持与DaVinci Resolve深度集成。 claude-code-infrastructure-showcase 一个用于 Claude Code 的基础设施参考库,通过 hooks 系统实现技能自动激活,采用模块化设计控制主文件在 500 行内,并包含 10 个专业 Agent 和完整开发文档系统。 BettaFish 一款开源的舆情分析Agent,能通过自然语言交互实现全网舆情采集与深度分析,支持7x24小时监控30+主流社媒平台及短视频解析,采用论坛协作机制促进多Agent思维碰撞生成专业报告。 moon-dev-ai-agents 一款面向股票交易策略验证的开源AI工具,通过自然语言描述自动生成回测代码并执行,基于DeepSeek等多AI模型构建,配备多智能体系统覆盖策略研究、实时交易等环节,支持20+数据源并行测试与多模型共识决策。 nof1.ai-alpha-arena 一款用于加密货币自主交易的开源工具。支持接入任意大语言模型驱动交易决策,提供单模型独立分析和多模型协作两种模式,内置智能风控系统,所有数据和密钥本地存储,基于深度强化学习在Hyperliquid平台运行。 VoiceFlow 一款基于OpenAI Whisper模型的本地语音转文字工具,支持按住或切换录音模式通过快捷键输入,提供16种以上模型选择、99种语言识别和本地历史记录搜索,完全本地运行无需联网,适配Windows 10/11系统。 KnowNote 一款本地文档AI辅助阅读桌面软件,支持拖入多种格式文档构建专属本地知识库,可对接DeepSeek、Ollama等本地模型进行RAG问答、摘要总结及思维导图生成,提供开箱即用安装包,数据完全本地存储且无需联网运行。 clickclickclick 一款基于大模型视觉能力的自动化控制工具,支持用自然语言命令让Android设备和macOS电脑自动完成重复性操作,兼容主流AI模型及本地模型,无需编写坐标代码。 voquill 一款提升文字输入效率的语音输入工具,通过语音直接输入到桌面应用且速度比打字快四倍,支持跨平台运行,可本地部署Whisper模型或接入Groq云端服务,具备AI文本清理和个人词典功能。 Raven 一款基于苹果本地模型运行的开源应用,能从PDF、图片、音频、视频中提取文字并进行智能问答和关联分析,支持macOS和iOS双平台,所有数据本地处理以保障隐私。 prism 一款跨平台AI翻译工具,集成截图OCR功能框选识别翻译文字,基于Tauri和Rust构建,支持自定义AI模型兼容OpenAI接口,通过SQLite本地存储翻译历史保障隐私,提供Windows和macOS安装包。 voicelive-api-salescoach 一款面向销售培训的AI语音对话模拟工具,通过虚拟客户实时对话提供真实销售场景练习,对话结束后从语气、内容质量等多维度给予反馈和评分,基于Azure语音实时API和GPT-4o构建,支持一键部署到Azure或本地开发环境搭建。 UniVLA 一款面向通用机器人策略学习的开源方案,通过提取以任务为中心的潜在动作统一动作空间,利用跨形态视频数据训练,降低训练门槛仅需OpenVLA 5%算力即在基准测试领先,并提供预训练模型库及LoRA微调支持以部署到真实机器人。 Tabminal 一款面向移动办公开发者的浏览器端开源终端工具,支持会话云端保存与跨设备无缝接续工作,基于WebSocket实现网络漫游和状态持久化,集成AI错误分析、Monaco编辑器及移动端虚拟HHKB键盘布局。 ebook-mcp 一款解决本地书库与AI对话“最后一公里”问题的开源项目,让Cursor或Claude等AI工具直接“读取”本地电子书,支持EPUB和PDF格式,将电子书内容转化为AI易于理解的Markdown格式,部署轻量,依赖Python和uv包管理器。 VideoPipe 一款用于搭建视频分析应用的开源框架,支持通过节点组合实现视频读取解码、目标追踪、行为分析等完整功能,提供40多个原型示例,基于C++编写依赖少易移植,采用流水线设计并兼容多种推理后端。 cocoindex 一款专为AI场景打造的高性能数据转换框架,能通过约100行Python代码定义从文件读取、分块到向量入库的全过程,支持多种数据源和目标,内置文本分块、嵌入生成等常用转换组件并提供20多个实际应用场景的示例。 sokuji 一款开源的实时语音翻译工具,接入OpenAI、Google Gemini等主流大模型,实时捕捉麦克风输入并播放翻译语音,提供桌面版和浏览器插件,适配会议场景,支持Linux虚拟音频设备及音频可视化。 nexa-sdk 一款面向个人设备的本地化AI解决方案,支持在断网环境下快速处理本地数据,如几毫秒内搜索数千张相片,采用自研模型压缩技术。 agentic-rag-for-dummies 一款基于 LangGraph 构建的生产级 Agentic RAG 解决方案。支持对话记忆和层级索引机制解决断章取义问题,多智能体并行处理复杂问题并主动反问确认意图,内置 Gradio 交互界面和 Docker 部署,提供 PDF 转 Markdown 指南和工具对比。 paperai 一款专为大规模文献检索和分析设计的开源工具,利用AI将文档转化为知识库,支持批量提问并生成深度报告,结合LLM和RAG技术,能精准标注答案在PDF原文件上,提供Docker镜像一键部署和Python环境安装,数据处理流程清晰可控。 claude-code-system-prompts 一份展示 Claude Code 工作机制的开源项目,公开其系统提示词文件及版本变更日志,包含主提示词、子智能体提示词等40多个文件及52个版本的演进过程。 SciToolAgent 一款辅助科研的AI工具,通过构建科学工具知识图谱整合500余个科学工具,采用“规划-执行-总结”架构拆解复杂任务并执行,具备安全检查机制监控实验风险,基于Python开发支持Conda快速配置和私有工具自定义添加。 Office-Word-MCP-Server 一款开源的MCP服务器,让AI能直接操作Word文档,从创建、排版到生成表格一气呵成,还支持读取现有文档、提取批注及全局格式调整,可通过Smithery一键安装或Python本地部署接入Claude Desktop使用。 promptomatix 一款针对提示词调优的自动化框架,能分析任务需求自动生成训练数据并迭代优化提示词,支持多模型提供商及命令行与API使用方式,提供详细教程。 vibe-coding-cn 一份AI辅助编程实践指南,提供标准化系统提示词、项目目录模板及全链路脚本,通过规划先行方法论引导AI生成可维护代码,收录多场景提示词、元提示词生成器和Skills技能库。 FluidVoice 一款适用于 Apple Silicon 芯片 Mac 的开源语音转文字工具,支持语音输入文字与控制 Mac 操作,基于 Parakeet TDT v3 模型实现实时转录,可接入 AI 模型优化识别并润色文本,需 macOS 14.0 及以上系统。 Open-AutoGLM 一款利用多模态大模型实现手机自动化操控的开源项目。能识别复杂UI、模拟点击输入及完成跨应用长链路任务,已适配50多款主流应用,开源所有模型权重和自动化操作框架,支持开发者私有部署。 open-scouts 一款基于 Next.js 16 和 Supabase 构建的开源信息监控工具,支持自定义监控任务并定时自动运行,利用 AI 智能分析搜索结果生成简报并通过邮件推送,整合 Firecrawl 网页抓取功能且支持 Docker 一键部署。 agents.md 一份为AI编程智能体提供专属操作指南的项目配置文件。将面向人类的文档与面向机器的构建步骤、测试指令和代码规范分离,兼容主流AI编程工具,支持大型项目嵌套使用且配置成本低。 ScholarXIV 一款专为移动端优化的arXiv论文阅读应用,集成搜索、下载、收藏和阅读功能,接入Gemini模型支持AI对话总结论文核心或解释难点,提供Android安装包,界面极简美观且支持深色模式。 banana-slides 一款致力于平衡效率与美观的AI幻灯片生成工具,支持对话式自然语言编辑实时调整布局元素,可上传PDF、Markdown等文件解析素材并一键导出可编辑文件,提供Docker Compose一键部署的开源方案。 Paper2Slides 一款能将论文报告转为专业幻灯片和海报的开源工具,支持PDF、Word等多种格式,提供多种内置主题和自然语言描述风格,基于检索增强生成技术自动提取关键图表数据并追溯出处,具备快速预览、断点续传和并行生成功能,可通过命令行和网页两种方式使用。 openskills 一款将Claude Code技能系统移植到多平台的开源工具,通过命令行复刻其完整技能机制,支持从官方及GitHub仓库安装PDF处理、Excel编辑等数十种技能,适用于Cursor、Windsurf等AI编程助手。 PromptFill 一款为AI绘画设计的结构化提示词生成工具,通过可视化填空交互快速构建和管理复杂Prompt,支持自定义词库分类、拖拽编辑、预览切换及双向同步新增关键词,所有修改本地保存且无需复杂配置。 all-agentic-architectures 一款现代AI智能体设计的实战开源项目,收录17种主流Agent架构,涵盖从基础工具调用到进阶多智能体协作等模式。利用LangGraph编排,提供可运行Jupyter Notebook及量化评估机制,助开发者理解底层逻辑并掌握高阶开发范式。 easy-llm-cli 一款在终端运行的AI工具命令行界面,兼容Gemini、OpenAI、Claude等多种大模型及本地模型,支持通过MCP扩展能力并读取代码库上下文,可自动执行Git操作、重构代码或生成应用,基于Node.js环境通过npx免安装运行。 reddit-mcp-buddy 一款为AI助手打造的Reddit浏览MCP服务器,赋予AI实时搜索和浏览Reddit的能力,支持查看热榜、搜索话题、分析用户发帖历史及抓取评论区,提供npm和docker部署方式,内置智能缓存机制且数据处理在本地完成。 claude-mem 一款为Claude Code解决会话重启失忆问题的持久化记忆工具。自动捕获操作细节和工具调用并生成语义化摘要存储,支持自然语言查询项目历史,采用渐进式披露策略节省Token,配备本地Web界面和隐私控制机制。 n8n-skills 一款为Claude Code注入核心技能的开源项目,内置n8n开发规范知识库,实现表达式语法纠错、节点配置校验、Webhook数据结构识别及指导生产级JavaScript代码编写,有效解决AI生成节点参数错误问题。 chatgpt-md 一款适用于 Obsidian 的 AI 集成插件,支持在笔记内直接发起对话并引用其他笔记作为上下文,可无缝对接 ChatGPT、OpenRouter 平台模型及通过 Ollama 等运行的本地模型,对话内容完全本地保存且支持 Markdown 渲染和模型参数单独配置。 inksight 一款Google开源的手写笔记转换系统,能将手写笔记照片转为保留书写轨迹的矢量笔迹并支持编辑搜索,基于视觉转换器和mT5编码解码架构,通过双重训练实现内容理解与书写过程还原。 OpenContracts 一款专为知识密集型工作设计的开源文档分析平台。支持PDF和文本格式文档的上传、标注及分析,提供批量数据提取、自定义元数据模式、协作标注和权限管理等企业级功能,基于PydanticAI框架构建语言模型系统并通过Docker快速部署。 Nano-PDF 一款基于自然语言的PDF幻灯片编辑器,支持通过文字指令更新日期、调整数据、修正错字及生成新幻灯片,采用Google Gemini 3 Pro Image模型,可多页并行处理并保留文本层,需配置付费Gemini API密钥。 MLE-agent 一款专为机器学习工程师设计的AI智能助手,能根据模糊需求自动构建ML基线方案并独立完成Kaggle竞赛全流程,整合Arxiv和Papers with Code资源,支持智能调试、自动生成周报,提供交互式命令行聊天界面并可接入多种AI模型。 obs-localvocal 一款为OBS打造的本地化语音转文字插件,实时将语音转化为高质量字幕并支持同步翻译,无需联网和支付API费用,基于ggml和Whisper模型构建,配置简单且可根据电脑配置自定义模型大小以平衡速度和精度。 Local-File-Organizer 一款利用大模型能力整理本地文件的智能工具,通过AI理解文件内容自动完成重命名、分类归档及重复项清理,支持接入Ollama运行本地模型确保隐私安全,也能配置DeepSeek或Kimi等云端API。 smol-podcaster 一款面向播客创作者的开源生产力工具,能自动化处理后期流程,包括生成区分说话人的逐字稿、提取带时间戳的章节、创作标题和宣发文案,解决音视频不同步问题并自动对齐时间戳,数据默认本地保存保障隐私安全。 argos-translate 一款基于 Python 的开源离线翻译库,支持 40 多种语言互译,包含中文、英语等常用语种,无直接模型时可通过中间语言转译。数据本地处理保障隐私,可作为 Python 库、命令行工具和可视化界面使用,支持 GPU 加速及 HTML 和文档文件翻译。 superpowers 一款为Claude Code提供系统化工作流程的技能库,包含测试、调试、协作、开发等功能,采用测试驱动开发流程,调试走系统化四步法,提交前自动验证,支持头脑风暴、制定计划等斜杠命令,技能可根据任务自动激活。 Paper2All 一款用于学术宣传材料生成的开源工具,上传论文PDF即可自动生成交互式网站、学术海报、宣传视频和社交媒体文案,支持自定义海报尺寸、数字人讲解视频及多平台风格推文,可本地部署并兼容OpenAI或OpenRouter等模型API。 RedInk 一款基于Nano Banana Pro的小红书图文生成器,通过输入主题和参考图批量生成6-9页风格统一的图文,支持编辑内容大纲、调整描述词及单独重生成,可通过Docker部署并配置Gemini或OpenAI兼容API,提供可视化Web界面和高并发模式。 WhisperLiveKit 一款本地实时语音识别与翻译解决方案,优化流式传输延迟,支持高精度转写、说话人识别和语音活动检测,可接入多种语音引擎并整合NLLW模型实现200种语言翻译。