Gorden Sun @Gorden_Sun Twitter profile

Last Seen Profiles

@Firstday75

@buntoge

@Afflelou

@SunjoRico

@bokeplokalmalam

@teamoppy

@GatorRealm

@cd_ferriolense

@KaalvoetPiet

@schw20074

@realelonmusk153

@stw_pdg

@FORJNKPJM

@rossrowett

@RmjSwamy

@BryonyCurry

@corbin61deborah

@fairyflowrs

@irjenb

@navalnewscom

@kenkenk89661920

@SukaBinorStw4

@OliviaRLWright

@gonelawn

@eddimen

@mengho5253

@senadagadu

@jandakembangstw

@s1nick

@amintebra

@BanCoolMan_RL

@DVVMovies

@stw46

@hyd_srl_sw

@ieanpe

@svaish610

Gorden Sun

@Gorden_Sun

11 months

我估计已经有人在做了：自动抓取抖音上热门的讲大道理、情感、生财的那种视频（正确但无用），然后用GPT改写，再用虚拟人（AI或者3D模型）生成口播视频，无限的内容就有了。我用这个流程做了几个视频，定位好目标观众群后，点赞率高达60%

92

478

2K

Gorden Sun

@Gorden_Sun

1 year

@HeyGen_Official HeyGen太他妈牛了，在排队了7000个视频之后，我的视频翻译完成了，效果绝对目前最好，没有之一。口型完美，卡点和嘴型都对的上。声音克隆稍有缺陷但也很好了，毕竟HeyGen只通过40秒的视频来克隆音频。如果刻意对比原视频，情感还原度稍有欠缺。只需上传一段视频即可实现！！！

Gorden Sun

@Gorden_Sun

1 year

付费方案：HeyGen的视频翻译功能，全套解决地址：开源方案：语音转文字：whisper 文字翻译：GPT 声音克隆+生成音频：so-vits-svc（Github：）生成符合音频的嘴型视频：GeneFace++（++版本还没发代码，GeneFace的Github：）

58

625

2K

87

529

2K

Gorden Sun

@Gorden_Sun

1 year

付费方案：HeyGen的视频翻译功能，全套解决地址：开源方案：语音转文字：whisper 文字翻译：GPT 声音克隆+生成音频：so-vits-svc（Github：）生成符合音频的嘴型视频：GeneFace++（++版本还没发代码，GeneFace的Github：）

GitHub - yerfor/GeneFace: GeneFace: Generalized and High-Fidelity 3D Talking Face Synthesis; ICLR...

GeneFace: Generalized and High-Fidelity 3D Talking Face Synthesis; ICLR 2023; Official code - yerfor/GeneFace

github.com

宝玉

@dotey

1 year

请问这个视频的中文配音都是AI翻译的吗？如果是的话用的是哪家的TTS技术呀？来源：

129

542

2K

58

625

2K

Gorden Sun

@Gorden_Sun

11 months

用开源（但不可任意商用）方案实现了HeyGen的效果，操作过程比想象的简单的多的多。 HeyGen是90分的话，这套方案能得80分。因为不止可以翻译视频，而且可以伪造视频，滥用风险比较大，暂时不放流程了。

Gorden Sun

@Gorden_Sun

1 year

@HeyGen_Official HeyGen太他妈牛了，在排队了7000个视频之后，我的视频翻译完成了，效果绝对目前最好，没有之一。口型完美，卡点和嘴型都对的上。声音克隆稍有缺陷但也很好了，毕竟HeyGen只通过40秒的视频来克隆音频。如果刻意对比原视频，情感还原度稍有欠缺。只需上传一段视频即可实现！！！

87

529

2K

59

354

1K

Gorden Sun

@Gorden_Sun

2 months

FLUX出图效果太棒了，提示词写的详细些，效果尤其好。

31

153

1K

Gorden Sun

@Gorden_Sun

9 months

GPT-SoVITS：适用于中文的语音克隆昨天刚发布，有评论说是目前中文最佳，支持通过5秒音频克隆、1分钟音频克隆，也支持通过完整训练来克隆。 Github： B站演示视频：

25

307

917

Gorden Sun

@Gorden_Sun

11 months

HeyGen实现流程中的语音克隆，现在有最佳开源方案了：XTTS v2，单样本即可克隆语音，效果见视频。现在已经能实现：让一个明星的采访视频，变成他讲述任意小故事（内容可以GPT编）的视频，声音是他的声音，嘴型也能对上。 XTTS v2在线体验： Github：

Gorden Sun

@Gorden_Sun

1 year

@HeyGen_Official HeyGen太他妈牛了，在排队了7000个视频之后，我的视频翻译完成了，效果绝对目前最好，没有之一。口型完美，卡点和嘴型都对的上。声音克隆稍有缺陷但也很好了，毕竟HeyGen只通过40秒的视频来克隆音频。如果刻意对比原视频，情感还原度稍有欠缺。只需上传一段视频即可实现！！！

87

529

2K

16

300

882

Gorden Sun

@Gorden_Sun

7 months

Suno创作音乐的小技巧： 1、如果你想参考某个现有歌曲的节奏，可以在这个网站查询歌曲的BPM和Key，作为提示词写进去。 2、歌词里，可以在歌词段落前加[Verse]（主歌）、[Rap]（说唱）、[Chorus]（副歌/高潮）、[Intro]（印子）来告诉AI这段歌词应该怎么唱。

Gorden Sun

@Gorden_Sun

7 months

以父之名 AI Remix

14

18

73

47

240

766

Gorden Sun

@Gorden_Sun

10 months

我心目中的2023十大AI产品/项目/技术

24

180

651

Gorden Sun

@Gorden_Sun

1 year

如果你没有时间或者没有渠道了解AI的发展动态，你适合收藏这本电子书，实时更新最新AI技术动态，内容齐全，包括模型、微调、向量数据库等多方面的内容。电子书网址：对应的开源Github：

15

183

536

Gorden Sun

@Gorden_Sun

27 days

现在在谷歌搜索AI资讯，排第一的是我的日报了

Gorden Sun

@Gorden_Sun

4 months

😎😎😎 Notion的建站功能不错虽然我没有独立域名，但是SEO排名已经第一了

34

85

519

38

71

545

Gorden Sun

@Gorden_Sun

4 months

可灵上线图生视频了，演绎效果很到位！

21

97

532

Gorden Sun

@Gorden_Sun

4 months

😎😎😎 Notion的建站功能不错虽然我没有独立域名，但是SEO排名已经第一了

34

85

519

Gorden Sun

@Gorden_Sun

6 months

LGM：生成高质量3D模型支持文字生成模型、图片生成模型，分辨率512*512，5秒内即可生成。在线体验：项目地址： Github：

16

128

520

Gorden Sun

@Gorden_Sun

6 months

@imxiaohu SD只是生成人脸用作替换，实际主要是实时换脸DeepFace Live Github：成品软件：

DeepFaceLive - DeepfakeVFX.com

DeepFaceLive provides real-time face swap for PC streaming or video calls. Swap your face from a webcam or the face in the video using trained face models.

www.deepfakevfx.com

15

139

498

Gorden Sun

@Gorden_Sun

1 year

很专一的场景：在线试发型

10

144

484

Gorden Sun

@Gorden_Sun

1 year

我在AI上花的钱，开虚拟信用卡、开GPT会员、开MJ会员、开colab会员、开抱抱脸会员，累计几千块。我通过AI赚的钱：进了一个AI社群，群里有个人说有500亿的项目找合作，其他人让他发个红包意思意思，我抢了2块钱，这是我通过AI唯一赚到的钱。

43

59

471

Gorden Sun

@Gorden_Sun

1 year

今年3月份的时候，用各种AI工具组合，做了一个AI有声绘本，现在 OpenAI 开放了一系列 API，只使用 OpenAI 的API 就能实现有声绘本了。如果结合 Assistants API 和 vision API，可以实现的更多。大概画了一张流程图。

11

113

464

Gorden Sun

@Gorden_Sun

9 months

已经2024年了，为啥还有人来问我艺术二维码咋做的，这个已经过气了好吗。整合了一个colab，写了一个超详细的操作教程，不需要任何代码基础，小白也能操作。教程地址：

14

132

455

Gorden Sun

@Gorden_Sun

10 months

微软的Copilot出iOS版本了，基本跟之前的Bing Chat差不多，不买ChatGPT Plus的可以考虑用这个。

43

86

429

Gorden Sun

@Gorden_Sun

8 months

宝藏PDF：神经网络关键技术图解作者把机器学习和神经网络领域的重要技术，都做成了神经回路图（Neural Circuit Diagrams，作者自研的图形语言），目的是展示神经网络架构的细节，便于学习和理解论文地址： Github：下图是Transformer的神经回路图

14

150

415

Gorden Sun

@Gorden_Sun

9 months

微软新出的AI朗读助手还挺实用，可以理解为带AI的免费版流利说。可以由AI生成不同难度等级的文章（可以选择主角、场景，并由AI给故事配图），或者从图书库里选择文章进行朗读。朗读后AI进行打分，并指出哪些单词读的不准，针对不准的单词，还可以单独练习朗读。地址：

20

140

404

Gorden Sun

@Gorden_Sun

7 months

VoiceCraft：官宣超过XTTS的语音模型支持克隆音频，支持通过修改原始音频的文本来编辑音频，演示效果非常好，看起来很有潜力。等周末有空再详细试，有人能给写个colab就更好了。 Github：项目地址：

GitHub - jasonppy/VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild

Zero-Shot Speech Editing and Text-to-Speech in the Wild - jasonppy/VoiceCraft

github.com

7

104

398

Gorden Sun

@Gorden_Sun

1 year

ProPainter：一键移除视频内的移动物体，一键移除视频水印。基于E2FGVI实现。之前的视频版SAM：Track-Anything也实现了类似的效果。 ProPainter：项目： Github： Track-Anything： E2FGVI：

4

156

397

Gorden Sun

@Gorden_Sun

9 months

腾讯的PhotoMaker发布了源码和体验空间无需训练LoRA，保持人脸一致，生成多种风格的肖像。项目地址： Github：写实风格的体验地址：其他风格的体验地址：

26

142

389

Gorden Sun

@Gorden_Sun

1 year

最牛逼的是支持多语言混合输入，一段掺杂了多种语言的文本，可以完美地说出来，是传统的TTS实现不了的。听我的视频里的效果，3种语言同时说，毫无违和感。

奇迹☆魔法少女

@gasikaramada

1 year

有多少人还没试用 OpenAI 新发布的 TTS 文字转语音？这里有一个在线版本，可以在网页直接输入一段文字，有 5 种男声和 2 种女声可以切换，不需要安装和部署，关键还免费试用了一下中文绕口令，用了我最喜欢 nova 的声音。

23

234

706

13

162

387

Gorden Sun

@Gorden_Sun

1 year

国产封装的DragGAN，解压直接用，内置17个模型。

8

115

374

Gorden Sun

@Gorden_Sun

11 months

上周末受邀给一个新成立的小组织分享AI相关的产品和方向，于是从HeyGen说起，整理了一些自己的思考和觉得可行的方向。 PPT下载链接：

18

117

364

Gorden Sun

@Gorden_Sun

11 months

LLM就像是一个考生，训练数据是教材，context是短时记忆力，prompt是解题技巧，fine-tune是补充教材和辅导书，RAG是开卷考试，function call是允许带计算器。

12

95

360

Gorden Sun

@Gorden_Sun

1 year

《深度学习小书》：讲了人工智能的基础知识，介绍了GPT、AI绘画模型。纯英文。下载地址：

10

98

354

Gorden Sun

@Gorden_Sun

7 months

要稳定生成粤语歌曲也特别简单： 1、把歌词扔给ChatGPT，让他给出粤语拼音标注 2、贴到Suno的歌词里，然后在style写上Cantonese song 来听粤语版《七里香》

Gorden Sun

@Gorden_Sun

7 months

Suno创作音乐的小技巧： 1、如果你想参考某个现有歌曲的节奏，可以在这个网站查询歌曲的BPM和Key，作为提示词写进去。 2、歌词里，可以在歌词段落前加[Verse]（主歌）、[Rap]（说唱）、[Chorus]（副歌/高潮）、[Intro]（印子）来告诉AI这段歌词应该怎么唱。

47

240

766

24

82

354

Gorden Sun

@Gorden_Sun

1 year

英伟达提供了一个 AI PlayGround ，免费使用，速度很快。支持4种AI工具： NeVA：具备视觉的LLM，能根据图片聊天。 SD XL：免费使用SD XL进行绘画，默认种子是1，手动改成-1。 CLIP：图片识别和物体检测。 LLaMa 2：在线使用LLaMa 2 聊天。地址：

6

144

338

Gorden Sun

@Gorden_Sun

1 year

今天线下活动时部署了基于ChatGPT的微信机器人（竟然今天才行动），感谢开源，配置真的很简单。地址：

GitHub - zhayujie/chatgpt-on-wechat: 基于大模型搭建的聊天机器人，同时支持微信公众号、企业微信应用、飞书、钉钉等接入，可选择GPT3.5/GPT-4o/G...

基于大模型搭建的聊天机器人，同时支持微信公众号、企业微信应用、飞书、钉钉等接入，可选择GPT3.5/GPT-4o/GPT-o1/ Claude/文心一言/讯飞星火/通义千问/ Gemini/GLM-4/Claude/Kimi/LinkAI，能处理文本、语音和图片，访问操作系统和互联网，支持基于自有知识库进行定制企业智能客服。 - zhayujie/chatgpt-on-wechat

github.com

13

85

313

Gorden Sun

@Gorden_Sun

9 months

Open TTS Tracker：开源TTS大全这个项目收集开源的TTS项目，并标注出每个TTS的信息，包括：支持哪些语言、协议、是否支持微调、在线使用地址等。大多数是英文模型，个别支持多语言和中文。没有采集到国内开发者训练或者二创的模型。 Github：

11

110

317

Gorden Sun

@Gorden_Sun

1 year

1/6。关于音乐的AI，现在都有什么？ 1、AI作曲：AIVA； 2、简谱生成音乐； 3、AI音色替换：so-vits-svc； 4、AI唱歌：voicemod 一串推：

24

142

305

Gorden Sun

@Gorden_Sun

8 months

一键把文章变成短视频莫得感情的短视频制造机，输入文章地址，自动提炼文章内容，自动使用题材相关的素材生成带语音、带字幕的视频。输入的文章可以是中文，生成的视频是英文的。使用地址：我输入的文章：生成的视频如下方。

13

110

298

Gorden Sun

@Gorden_Sun

1 year

手动启用 New Bing 多模态功能（图片聊天） 1）F12打开浏览器控制台，输入：_w["_sydConvConfig"].sydOptionSets += ",iycapbing,iyxapbing", _w["_sydConvConfig"].enableVisualSearch = true; 输入后不要执行； 2）刷新 New Bing Chat 网页，在刷新完成之前执行上面的代码 3）就有上传图片的按钮了

12

97

300

Gorden Sun

@Gorden_Sun

1 year

谷歌开放了一套Generative AI的课程，完全免费。地址：

Google Cloud Skills Boost

Qwiklabs provides real Google Cloud environments that help developers and IT professionals learn cloud platforms and software, such as Firebase, Kubernetes and more.

www.cloudskillsboost.google

3

110

293

Gorden Sun

@Gorden_Sun

1 year

AI资讯日报，11月7日：虽迟但到，OpenAI开发者大会的总结，还是要自己梳理一份。

9

98

303

Gorden Sun

@Gorden_Sun

8 months

D-ID Agents：真正的数字分身用你的照片做虚拟人，再克隆上你的声音，再上传文件来同步你的知识库，能实现只有2秒延迟的视频对话。我试了下，目前一直提示不在线，体验不到真实的效果。使用地址：

11

83

291

Gorden Sun

@Gorden_Sun

11 months

LLM注意力机制的可视化展示 Github：

4

71

296

Gorden Sun

@Gorden_Sun

1 year

Open Interpreter：本地运行的代码解释器结合OpenAI API，在本地运行代码解释器，可以联网，有更全的库，不限制文件大小和运行时间。看起来很有潜力。 Github：

GitHub - OpenInterpreter/open-interpreter: A natural language interface for computers

A natural language interface for computers. Contribute to OpenInterpreter/open-interpreter development by creating an account on GitHub.

github.com

4

89

291

Gorden Sun

@Gorden_Sun

8 months

大语言模型综述这篇论文回顾了LLM的发展历程，用一些图表梳理了LLM的技术要点，总结了GPT、LLaMa、PaLM系列模型各自的特点和局限，整理了一些训练、微调、评测数据集。其中的图表画的很清晰。论文地址：

10

106

287

Gorden Sun

@Gorden_Sun

1 month

PuLID的Flux版本，人脸还原效果还挺不错。 Github：、在线使用：图1是原图，234是生成的

7

69

294

Gorden Sun

@Gorden_Sun

10 months

ChatGPT-3.5的免费平替 Poe的Mistral-Medium：英文强过GPT-3.5，32K上下文，基本没有安全限制。地址： Perplexity：联网，速度快。但上下文短。地址： Bard：即Gemini Pro，多模态，OCR强悍，超过GPT-4。中文一般。地址：

7

86

283

Gorden Sun

@Gorden_Sun

8 months

BRIA-RMBG：一键抠图，去除背景。开源最佳，不可商用，效果还可以。在线使用：模型：

6

92

271

Gorden Sun

@Gorden_Sun

10 months

@mranti 浏览器打开300M的PDF需要很长时间，下载了一份放到了谷歌云盘，可以在这里下载：

Epstein-Docs.pdf

drive.google.com

13

59

259

Gorden Sun

@Gorden_Sun

4 months

Doc2X：超强且免费的PDF解析工具可以识别数学公式、表格、图片，公式的识别效果尤其优秀，图表的排版也很智能。解析后支持导出为Markdown、LaTeX、Word文档、网页等格式。每天有500页的免费额度。使用地址：下方图片是我解析阿里数学竞赛预赛题的效果。

5

84

267

Gorden Sun

@Gorden_Sun

1 year

冷知识，HeyGen是一家中国公司的产品，公司名叫诗云科技，在深圳。

16

75

263

Gorden Sun

@Gorden_Sun

11 months

Perplexity Labs发布了自己训练的两个模型： pplx-7b-online（基于Mistral-7B） pplx-70b-online（基于LLaMa 2-70B）最大特点是内置了联网功能，响应速度特别快，远远快过联网查询的GPT-4。个人体验优于ChatGPT-3.5，如果不订阅GPT-4，是目前联网LLM的最佳选择。地址：

9

86

258

Gorden Sun

@Gorden_Sun

7 months

Answer：使用2个3090就能训练70B模型通过FSDP + QLoRA实现，完全开源。官方介绍和教程： Github：

GitHub - AnswerDotAI/fsdp_qlora: Training LLMs with QLoRA + FSDP

Training LLMs with QLoRA + FSDP. Contribute to AnswerDotAI/fsdp_qlora development by creating an account on GitHub.

github.com

9

70

255

Gorden Sun

@Gorden_Sun

1 year

（持续更新）关于视频的AI，现在都有什么？盘点了一下我用过和了解的AI视频产品，排名有先后。全文： 1/N 1、Wonder Studio 2、Runway GEN2 3、Stable Diffusion+ControlNet+EBsynth 4、Studio Paranormal 5、Stable Diffusion+Deforum 6、Stability AI视频 7、Luma AI

20

96

246

Gorden Sun

@Gorden_Sun

1 year

基于PDF或者Word文档做总结或者问答，现在已经不新鲜了，但是如果文档里有图片，提问的内容涉及图片怎么办？ LangChain出了一份cookbook，讲解了该如何实现多模态的文档问答。用到了LLaVA、llama、向量数据库等。教程地址：

11

79

251

Gorden Sun

@Gorden_Sun

1 year

SMPLer-X：输入视频，即可提取视频中的动作。项目演示视频用其他模型复刻了原视频的动作，效果非常好。如果再消除原视频的人物，就实现了Wonders Studio。项目地址： Github：论文：

6

101

247

Gorden Sun

@Gorden_Sun

1 year

@oran_ge @Stefsunyanzi 使用so-vits-svc制作，先用足够多的人声训练，然后再基于一首歌进行推理，把人声的音色替换成孙燕姿。UP主很机智的没有选用周杰伦的原唱做推理，而是用女声翻唱版做推理，这样AI孙燕姿唱出来更好听。 so-vits-svc的Github出于法律风险，项目组现已停止维护。一套教程：

GitHub - RVC-Project/Retrieval-based-Voice-Conversion-WebUI: Easily train a good VC model with...

Easily train a good VC model with voice data <= 10 mins! - RVC-Project/Retrieval-based-Voice-Conversion-WebUI

github.com

15

64

239

Gorden Sun

@Gorden_Sun

4 months

Fish Speech V1.2：可能是目前最好的中文开源TTS 效果逼真，能说绕口令，支持克隆语音，效果稳定，可用性比ChatTTS、GPT-SoVITS强太多了。模型（开源不可商用）：在线使用：

1

49

250

Gorden Sun

@Gorden_Sun

29 days

Moshi ：开源语音端到端模型支持口语对话，且没有经过ASR和TTS的过程，而是直接语音生成语音。支持流式语音识别和文本转语音。模型： Github：在线体验：

4

74

246

Gorden Sun

@Gorden_Sun

3 months

字节出了AI音乐产品：海绵音乐效果非常好，人声没有杂音，完美支持中文，音乐也还算好听（间奏尤其不错），可以媲美Suno 官网：

11

87

248

Gorden Sun

@Gorden_Sun

11 months

UIDraw：在手机上画草图，自动生成H5页面一个SwiftUI项目，使用GPT-4V实现写HTML界面。需要自己打包项目，需要替换ContentView.swift里的OpenAI Key。 Github：

8

65

245

Gorden Sun

@Gorden_Sun

8 months

字节的MagicDance发布了源码，可以让任意角色按动作序列动起来。 Github：项目地址：

7

73

237

Gorden Sun

@Gorden_Sun

8 months

Nendo AI：收费超贵但开源的AI音频平台官网使用499美元/月起，但在Github上开源，需要24G以上的显存。官网： Github：功能包括： 1）AI支持的音频搜索，AI自动给音乐素材分类，支持文本搜索和找类似音频；

6

71

239

Gorden Sun

@Gorden_Sun

8 months

LLM数据集综述分析了LLM数据集的现状和趋势，对LLM数据集进行了整合和分类，包括：预训练语料库（Pretrain）指令微调数据集（Instruction Fine-tuning）偏好数据集（Preference ）评估数据集 NLP数据集整理的数据集数量444个，大小超过774TB，覆盖8种语言。论文：

4

59

235

Gorden Sun

@Gorden_Sun

11 months

LLM推理过程可视化，这个项目太酷了地址：

Brendan Bycroft

@BrendanBycroft

11 months

Project #2 : LLM Visualization So I created a web-page to visualize a small LLM, of the sort that's behind ChatGPT. Rendered in 3D, it shows all the steps to run a single token inference. (link in bio)

116

1K

6K

4

71

236

Gorden Sun

@Gorden_Sun

7 months

交个朋友。小范围分享克隆视频的方法，包括免费方案和付费方案（价格比HeyGen低60%）满足以下条件之一即可参加： 1）我关注的或关注我的5000粉以上账号，且不卖课（万一以后我想卖呢） 2）有技能可以交换 3）视频模型领域的开发者感兴趣的朋友请私信。

35

44

236

Gorden Sun

@Gorden_Sun

1 year

Quivr：索引电脑上几乎所有类型的本地文件，然后通过LLM来进行问答，做“你的第二大脑”。只支持Ubuntu系统，windows系统可以等微软官方的copilot，苹果系统可以用Rewind。 Quivr Github： Rewind未开源，在Mac版和手机版应用商店可以下载��

GitHub - QuivrHQ/quivr: Open-source RAG Framework for building GenAI Second Brains 🧠 Build...

Open-source RAG Framework for building GenAI Second Brains 🧠 Build productivity assistant (RAG) ⚡️🤖 Chat with your docs (PDF, CSV, ...) & apps using Langchain, GPT 3.5 / 4 turbo, Private,...

github.com

2

69

232

Gorden Sun

@Gorden_Sun

8 months

VSP-LLM：AI读唇语输入嘴型视频，结合LLM来识别嘴型对应的文本内容。 Github：论文：

8

71

231

Gorden Sun

@Gorden_Sun

2 months

我第一个阅读过百万的推。提示词太长，超过了ALT的1000单词上限，拆成2部分放在了2个图片的ALT里。

Gorden Sun

@Gorden_Sun

2 months

FLUX出图效果太棒了，提示词写的详细些，效果尤其好。

31

153

1K

5

50

232

Gorden Sun

@Gorden_Sun

4 months

TensorArt：在线AI绘画平台，功能全面且有特色，免费可用支持SD3、腾讯混元、SDXL等几乎全部的开源模型，支持Layer Diffusion生成透明背景，支持高清放大图片，支持自动修复面部和手部异常。

9

68

228

Gorden Sun

@Gorden_Sun

9 months

ChatGPT Source Watch：监控ChatGPT前端代码来推测新功能这个项目太牛了，我估计OpenAI竞对都不一定能盯的这么紧。作者通过对比每个版本的ChatGPT前端代码（webpack），来推测ChatGPT的新功能。这几天新上线的@功能，最早就是这个项目提前爆出来的。 Github：

6

70

219

Gorden Sun

@Gorden_Sun

9 months

苹果开源了MGIE：通过文字描述即可P图，支持多语言。基于LLaVA实现，效果还可以。

William Wang

@WilliamWangNLP

9 months

🤩Apple opensources MGIE! Now one can take random pictures w. iPhone & edit w. language! Guiding Instruction-based Image Editing via Multimodal Large Language Models #ICLR2024 spotlight: Apple repo Gradio

5

90

369

6

48

226

Gorden Sun

@Gorden_Sun

4 months

EvTexture：视频高清化效果不错，已开源，后续会放出训练代码和训练数据集。项目地址： Github：

4

46

225

Gorden Sun

@Gorden_Sun

5 months

谷歌开源了时间序列预测模型TimesFM的权重时间序列预测在零售、金融、制造、医疗等领域广泛存在，TimesFM仅2亿参数，基于1000 亿个现实世界时间点的时间序列语料库进行训练，实现了目前的最佳效果。 Github：模型：

7

75

220

Gorden Sun

@Gorden_Sun

11 months

Prompt Engineering 完胜 Fine-tuning：通用(且强大)的LLM通过prompt即可超越精调的LLM 微软的一项研究，通过优化提示词，让GPT-4在医学领域完胜Med-PaLM 2（用医学数据精调的LLM）这意味着，通用且强大的LLM，能胜任各个领域的任务，比普通但在指定领域精调的LLM更强论文：

4

61

213

Gorden Sun

@Gorden_Sun

7 months

海辛把她写的小说喂给了Claude 3 Opus，然后让Claude创作了一篇短篇小说，写的文字惊到我了。

13

42

207

Gorden Sun

@Gorden_Sun

8 months

被这个AI模型笑死了。 Goody-2：全世界最安全也最没用的LLM 不论你问什么问题，他总能告诉你这个问题有什么风险，从而拒绝回答。地址：

12

53

213

Gorden Sun

@Gorden_Sun

3 months

Aiuni：最佳图生3D来了？！清北00后团队开发，产品效果非常好，细节比较到位，也能脑补出图片中没有展示出的内容。支持图片生成3D模型和图片生成3D场景（天空盒），适用于游戏和影视场景。下方视频是我用DALL·E生成图片，然后转成3D的效果。官网：

7

68

215

Gorden Sun

@Gorden_Sun

9 months

Parakeet-TDT：超越Whisper的语音识别模型英伟达和SunoAI研发的模型，是历史版本的进化版，官方宣称目前开源最佳。可商用。在线体验：模型地址：官方博客：

nvidia/parakeet-tdt-1.1b · Hugging Face

huggingface.co

4

77

209

Gorden Sun

@Gorden_Sun

4 months

The Prompt Report：提示词综述项目由Learn Prompting社区主导，成员来自OpenAI、微软、斯坦福等机构。长达76页的论文，分析了1500多篇论文，涵盖了每一种提示词技术。项目地址：论文：

4

74

210

Gorden Sun

@Gorden_Sun

8 months

Pix2Text：开源的公式识别工具可能是最好的开源模型，除了Mathpix商用模型，比其他的商用模型也不差。普通人用免费版就够用，也提供了付费版本，错误率更低。 Github：在线使用（每人每天可以免费识别 10000 个字符）：

2

68

209

Gorden Sun

@Gorden_Sun

7 months

MuseV：虚拟人视频的完整解决方案基于SD，支持文生视频、图生视频、视频生视频，能保持角色一致，不限视频长度。后续会发布MuseTalk来支持实时嘴型同步。在线体验： Github：论文后续发（阿里看看人家，先开源再发论文！）

4

63

209

Gorden Sun

@Gorden_Sun

9 months

茴香豆：服务于群聊的LLM 支持飞书、微信（有风险）、企业微信，相比之前类似的LLM，茴香豆能自动识别出群里的有效信息，自动回复有效问题，忽略闲聊信息。可以本地部署，也可以使用OpenAI API。 Github：

10

66

203

Gorden Sun

@Gorden_Sun

4 months

StreamSpeech：同声传译 “一体化”无缝模型，同步执行语音识别、语音翻译和语音合成。项目地址： Github：

4

66

205

Gorden Sun

@Gorden_Sun

5 months

AI越狱提示词包含OpenAI、Midjourney、LLaMA、Deepseek等主流模型的越狱提示词技巧，实测对Command R+有效。 Github：

2

54

199

Gorden Sun

@Gorden_Sun

3 months

Cloudflare全栈工具包前后端全部基于Cloudflare，适合免费、快速搭建网页应用，作者基于这套工具包搭建了应用：代码文件比较多，只有Gemini能一次性读取，我打算试试让他指导建站 Github：

1

58

201

Gorden Sun

@Gorden_Sun

2 months

MedTrinity-25M：医学多模态数据集包含2500万张医学影像及详细注释，可用于训练医疗多模态大模型。 Github：数据集：

2

85

202

Gorden Sun

@Gorden_Sun

1 year

字节的两个AI视频项目，团队是同一拨人。 MagicEdit：输入文字即可编辑视频，包括修改风格、修改局部画面、视频混合、视频扩展。项目地址： MagicAvatar：输入文本、视频、音频，生成带动作的虚拟角色。项目地址：视频介绍：

4

65

197

Gorden Sun

@Gorden_Sun

7 months

Make-Your-Anchor：能生成带手部动作的虚拟人除了没有克隆语音，基本算是全套方案了。输入1分钟视频进行训练，可以合成带手部动作的虚拟人视频，支持嘴型同步，支持换脸。代码还没发布。 Github：论文：

8

81

191

Gorden Sun

@Gorden_Sun

1 year

Suspicion-Agent：GPT-4利用“心智理论”玩德州扑克等不完美信息博弈，完胜其他算法，碾压人类新手玩家。论文： Github：

6

57

192

Gorden Sun

@Gorden_Sun

10 months

GPTs从简单到复杂可以划分为4种： 1）只通过文字限定角色和功能的GPTs 2）在1的基础上，附加知识库 3）调用标准OpenAPI的GPTs 4）调用自定义API的GPTs GPTs的潜力非常大，用第4种GPTs甚至可以实现独立的小应用。这篇教程完整介绍了每种GPTs的创建流程：

9

72

191

Gorden Sun

@Gorden_Sun

1 month

Loopy：字节的Emo 音频生成人物视频，匹配嘴型，有头部动作。项目地址：类似项目有：闭源：Emo（最早）、VASA-1（最好）、Hedra（已经产品化）、HeyGen Expressive Photos（已经产品化）开源：Hallo、AniTalker、EchoMimic、AniPortrait、InstructAvatar、V-Express

5

73

194

Gorden Sun

@Gorden_Sun

3 months

SEED-Story：能写图文故事的多模态模型基于SEED-X，提供角色图片和故事要求，可以保持角色一致，完成整个故事的文字和配图。 Github：

1

61

187

Gorden Sun

@Gorden_Sun

1 year

当之无愧是目前最强的AI创作PPT的应用，近期内置了AI生成图片的功能，用于PPT配图。使用的是SDXL 1.0生成图片，并且提供了优化提示词的功能，输入主题即可自动完善提示词，生成的图片效果非常好。免费额度400积分，至少可以生成5个PPT，每个人都应该试一试。

2

59

182

Gorden Sun

@Gorden_Sun

7 months

AI资讯日报一周年了，分享一下这一年的数据。写了365篇日报笔记，每篇笔记的阅读次数大概在200左右（好少），猜测跟Notion载体有关，但是不打算换，因为不必担心敏感内容，而且现在有Ask AI的功能，笔记就是知识库。同期开始运营Twitter账号，一年时间15000的粉丝，此处感谢 @dotey @mranti