Gorden Sun Profile Banner
Gorden Sun Profile
Gorden Sun

@Gorden_Sun

21,380
Followers
1,378
Following
1,263
Media
4,622
Statuses

产品经理,主发AI相关信息,个人维护的AI资讯日报↓

北京
Joined August 2013
Don't wanna be here? Send us removal request.
@Gorden_Sun
Gorden Sun
11 months
我估计已经有人在做了: 自动抓取抖音上热门的讲大道理、情感、生财的那种视频(正确但无用),然后用GPT改写,再用虚拟人(AI或者3D模型)生成口播视频,无限的内容就有了。 我用这个流程做了几个视频,定位好目标观众群后,点赞率高达60%
Tweet media one
92
478
2K
@Gorden_Sun
Gorden Sun
1 year
@HeyGen_Official HeyGen太他妈牛了,在排队了7000个视频之后,我的视频翻译完成了,效果绝对目前最好,没有之一。 口型完美,卡点和嘴型都对的上。 声音克隆稍有缺陷但也很好了,毕竟HeyGen只通过40秒的视频来克隆音频。 如果刻意对比原视频,情感还原度稍有欠缺。 只需上传一段视频即可实现!!!
@Gorden_Sun
Gorden Sun
1 year
付费方案:HeyGen的视频翻译功能,全套解决 地址: 开源方案: 语音转文字:whisper 文字翻译:GPT 声音克隆+生成音频:so-vits-svc(Github:) 生成符合音频的嘴型视频:GeneFace++(++版本还没发代码,GeneFace的Github:)
58
625
2K
87
529
2K
@Gorden_Sun
Gorden Sun
1 year
付费方案:HeyGen的视频翻译功能,全套解决 地址: 开源方案: 语音转文字:whisper 文字翻译:GPT 声音克隆+生成音频:so-vits-svc(Github:) 生成符合音频的嘴型视频:GeneFace++(++版本还没发代码,GeneFace的Github:)
@dotey
宝玉
1 year
请问这个视频的中文配音都是AI翻译的吗?如果是的话用的是哪家的TTS技术呀? 来源:
129
542
2K
58
625
2K
@Gorden_Sun
Gorden Sun
11 months
用开源(但不可任意商用)方案实现了HeyGen的效果,操作过程比想象的简单的多的多。 HeyGen是90分的话,这套方案能得80分。 因为不止可以翻译视频,而且可以伪造视频,滥用风险比较大,暂时不放流程了。
@Gorden_Sun
Gorden Sun
1 year
@HeyGen_Official HeyGen太他妈牛了,在排队了7000个视频之后,我的视频翻译完成了,效果绝对目前最好,没有之一。 口型完美,卡点和嘴型都对的上。 声音克隆稍有缺陷但也很好了,毕竟HeyGen只通过40秒的视频来克隆音频。 如果刻意对比原视频,情感还原度稍有欠缺。 只需上传一段视频即可实现!!!
87
529
2K
59
354
1K
@Gorden_Sun
Gorden Sun
2 months
FLUX出图效果太棒了,提示词写的详细些,效果尤其好。
Tweet media one
Tweet media two
Tweet media three
31
153
1K
@Gorden_Sun
Gorden Sun
9 months
GPT-SoVITS:适用于中文的语音克隆 昨天刚发布,有评论说是目前中文最佳,支持通过5秒音频克隆、1分钟音频克隆,也支持通过完整训练来克隆。 Github: B站演示视频:
25
307
917
@Gorden_Sun
Gorden Sun
11 months
HeyGen实现流程中的语音克隆,现在有最佳开源方案了:XTTS v2,单样本即可克隆语音,效果见视频。 现在已经能实现:让一个明星的采访视频,变成他讲述任意小故事(内容可以GPT编)的视频,声音是他的声音,嘴型也能对上。 XTTS v2在线体验: Github:
@Gorden_Sun
Gorden Sun
1 year
@HeyGen_Official HeyGen太他妈牛了,在排队了7000个视频之后,我的视频翻译完成了,效果绝对目前最好,没有之一。 口型完美,卡点和嘴型都对的上。 声音克隆稍有缺陷但也很好了,毕竟HeyGen只通过40秒的视频来克隆音频。 如果刻意对比原视频,情感还原度稍有欠缺。 只需上传一段视频即可实现!!!
87
529
2K
16
300
882
@Gorden_Sun
Gorden Sun
7 months
Suno创作音乐的小技巧: 1、如果你想参考某个现有歌曲的节奏,可以在这个网站查询歌曲的BPM和Key,作为提示词写进去。 2、歌词里,可以在歌词段落前加[Verse](主歌)、[Rap](说唱)、[Chorus](副歌/高潮)、[Intro](印子)来告诉AI这段歌词应该怎么唱。
Tweet media one
@Gorden_Sun
Gorden Sun
7 months
以父之名 AI Remix
14
18
73
47
240
766
@Gorden_Sun
Gorden Sun
10 months
我心目中的2023十大AI产品/项目/技术
Tweet media one
24
180
651
@Gorden_Sun
Gorden Sun
1 year
如果你没有时间或者没有渠道了解AI的发展动态,你适合收藏这本电子书,实时更新最新AI技术动态,内容齐全,包括模型、微调、向量数据库等多方面的内容。 电子书网址: 对应的开源Github:
Tweet media one
15
183
536
@Gorden_Sun
Gorden Sun
27 days
现在在谷歌搜索AI资讯,排第一的是我的日报了
Tweet media one
@Gorden_Sun
Gorden Sun
4 months
😎😎😎 Notion的建站功能不错 虽然我没有独立域名,但是SEO排名已经第一了
Tweet media one
34
85
519
38
71
545
@Gorden_Sun
Gorden Sun
4 months
可灵上线图生视频了,演绎效果很到位!
21
97
532
@Gorden_Sun
Gorden Sun
4 months
😎😎😎 Notion的建站功能不错 虽然我没有独立域名,但是SEO排名已经第一了
Tweet media one
34
85
519
@Gorden_Sun
Gorden Sun
6 months
LGM:生成高质量3D模型 支持文字生成模型、图片生成模型,分辨率512*512,5秒内即可生成。 在线体验: 项目地址: Github:
Tweet media one
16
128
520
@Gorden_Sun
Gorden Sun
1 year
很专一的场景:在线试发型
Tweet media one
Tweet media two
10
144
484
@Gorden_Sun
Gorden Sun
1 year
我在AI上花的钱,开虚拟信用卡、开GPT会员、开MJ会员、开colab会员、开抱抱脸会员,累计几千块。 我通过AI赚的钱:进了一个AI社群,群里有个人说有500亿的项目找合作,其他人让他发个红包意思意思,我抢了2块钱,这是我通过AI唯一赚到的钱。
43
59
471
@Gorden_Sun
Gorden Sun
1 year
今年3月份的时候,用各种AI工具组合,做了一个AI有声绘本,现在 OpenAI 开放了一系列 API,只使用 OpenAI 的API 就能实现有声绘本了。如果结合 Assistants API 和 vision API,可以实现的更多。 大概画了一张流程图。
Tweet media one
11
113
464
@Gorden_Sun
Gorden Sun
9 months
已经2024年了,为啥还有人来问我艺术二维码咋做的,这个已经过气了好吗。 整合了一个colab,写了一个超详细的操作教程,不需要任何代码基础,小白也能操作。 教程地址:
Tweet media one
Tweet media two
Tweet media three
Tweet media four
14
132
455
@Gorden_Sun
Gorden Sun
10 months
微软的Copilot出iOS版本了,基本跟之前的Bing Chat差不多,不买ChatGPT Plus的可以考虑用这个。
Tweet media one
Tweet media two
Tweet media three
43
86
429
@Gorden_Sun
Gorden Sun
8 months
宝藏PDF:神经网络关键技术图解 作者把机器学习和神经网络领域的重要技术,都做成了神经回路图(Neural Circuit Diagrams,作者自研的图形语言),目的是展示神经网络架构的细节,便于学习和理解 论文地址: Github: 下图是Transformer的神经回路图
Tweet media one
14
150
415
@Gorden_Sun
Gorden Sun
9 months
微软新出的AI朗读助手还挺实用,可以理解为带AI的免费版流利说。 可以由AI生成不同难度等级的文章(可以选择主角、场景,并由AI给故事配图),或者从图书库里选择文章进行朗读。朗读后AI进行打分,并指出哪些单词读的不准,针对不准的单词,还可以单独练习朗读。 地址:
Tweet media one
20
140
404
@Gorden_Sun
Gorden Sun
7 months
VoiceCraft:官宣超过XTTS的语音模型 支持克隆音频,支持通过修改原始音频的文本来编辑音频,演示效果非常好,看起来很有潜力。等周末有空再详细试,有人能给写个colab就更好了。 Github: 项目地址:
7
104
398
@Gorden_Sun
Gorden Sun
1 year
ProPainter:一键移除视频内的移动物体,一键移除视频水印。基于E2FGVI实现。之前的视频版SAM:Track-Anything也实现了类似的效果。 ProPainter: 项目: Github: Track-Anything: E2FGVI:
4
156
397
@Gorden_Sun
Gorden Sun
9 months
腾讯的PhotoMaker发布了源码和体验空间 无需训练LoRA,保持人脸一致,生成多种风格的肖像。 项目地址: Github: 写实风格的体验地址: 其他风格的体验地址:
Tweet media one
26
142
389
@Gorden_Sun
Gorden Sun
1 year
最牛逼的是支持多语言混合输入,一段掺杂了多种语言的文本,可以完美地说出来,是传统的TTS实现不了的。 听我的视频里的效果,3种语言同时说,毫无违和感。
@gasikaramada
奇迹☆魔法少女
1 year
有多少人 还没试用 OpenAI 新发布的 TTS 文字转语音? 这里有一个在线版本 ,可以在网页直接输入一段文字,有 5 种男声和 2 种女声可以切换,不需要安装和部署,关键还免费 试用了一下中文绕口令,用了我最喜欢 nova 的声音。
23
234
706
13
162
387
@Gorden_Sun
Gorden Sun
1 year
国产封装的DragGAN,解压直接用,内置17个模型。
Tweet media one
8
115
374
@Gorden_Sun
Gorden Sun
11 months
上周末受邀给一个新成立的小组织分享AI相关的产品和方向,于是从HeyGen说起,整理了一些自己的思考和觉得可行的方向。 PPT下载链接:
Tweet media one
Tweet media two
18
117
364
@Gorden_Sun
Gorden Sun
11 months
LLM就像是一个考生,训练数据是教材,context是短时记忆力,prompt是解题技巧,fine-tune是补充教材和辅导书,RAG是开卷考试,function call是允许带计算器。
12
95
360
@Gorden_Sun
Gorden Sun
1 year
《深度学习小书》:讲了人工智能的基础知识,介绍了GPT、AI绘画模型。纯英文。 下载地址:
Tweet media one
10
98
354
@Gorden_Sun
Gorden Sun
7 months
要稳定生成粤语歌曲也特别简单: 1、把歌词扔给ChatGPT,让他给出粤语拼音标注 2、贴到Suno的歌词里,然后在style写上Cantonese song 来听粤语版《七里香》
@Gorden_Sun
Gorden Sun
7 months
Suno创作音乐的小技巧: 1、如果你想参考某个现有歌曲的节奏,可以在这个网站查询歌曲的BPM和Key,作为提示词写进去。 2、歌词里,可以在歌词段落前加[Verse](主歌)、[Rap](说唱)、[Chorus](副歌/高潮)、[Intro](印子)来告诉AI这段歌词应该怎么唱。
Tweet media one
47
240
766
24
82
354
@Gorden_Sun
Gorden Sun
1 year
英伟达提供了一个 AI PlayGround ,免费使用,速度很快。支持4种AI工具: NeVA:具备视觉的LLM,能根据图片聊天。 SD XL:免费使用SD XL进行绘画,默认种子是1,手动改成-1。 CLIP:图片识别和物体检测。 LLaMa 2:在线使用LLaMa 2 聊天。 地址:
Tweet media one
6
144
338
@Gorden_Sun
Gorden Sun
9 months
Open TTS Tracker:开源TTS大全 这个项目收集开源的TTS项目,并标注出每个TTS的信息,包括:支持哪些语言、协议、是否支持微调、在线使用地址等。大多数是英文模型,个别支持多语言和中文。 没有采集到国内开发者训练或者二创的模型。 Github:
Tweet media one
11
110
317
@Gorden_Sun
Gorden Sun
1 year
1/6。关于音乐的AI,现在都有什么? 1、AI作曲:AIVA; 2、简谱生成音乐; 3、AI音色替换:so-vits-svc; 4、AI唱歌:voicemod 一串推:
24
142
305
@Gorden_Sun
Gorden Sun
8 months
一键把文章变成短视频 莫得感情的短视频制造机,输入文章地址,自动提炼文章内容,自动使用题材相关的素材生成带语音、带字幕的视频。 输入的文章可以是中文,生成的视频是英文的。 使用地址: 我输入的文章: 生成的视频如下方。
13
110
298
@Gorden_Sun
Gorden Sun
1 year
手动启用 New Bing 多模态功能(图片聊天) 1)F12打开浏览器控制台,输入:_w["_sydConvConfig"].sydOptionSets += ",iycapbing,iyxapbing", _w["_sydConvConfig"].enableVisualSearch = true; 输入后不要执行; 2)刷新 New Bing Chat 网页,在刷新完成之前执行上面的代码 3)就有上传图片的按钮了
Tweet media one
Tweet media two
12
97
300
@Gorden_Sun
Gorden Sun
1 year
AI资讯日报,11月7日: 虽迟但到,OpenAI开发者大会的总结,还是要自己梳理一份。
Tweet media one
9
98
303
@Gorden_Sun
Gorden Sun
8 months
D-ID Agents:真正的数字分身 用你的照片做虚拟人,再克隆上你的声音,再上传文件来同步你的知识库,能实现只有2秒延迟的视频对话。 我试了下,目前一直提示不在线,体验不到真实的效果。 使用地址:
11
83
291
@Gorden_Sun
Gorden Sun
11 months
LLM注意力机制的可视化展示 Github:
4
71
296
@Gorden_Sun
Gorden Sun
1 year
Open Interpreter:本地运行的代码解释器 结合OpenAI API,在本地运行代码解释器,可以联网,有更全的库,不限制文件大小和运行时间。 看起来很有潜力。 Github:
4
89
291
@Gorden_Sun
Gorden Sun
8 months
大语言模型综述 这篇论文回顾了LLM的发展历程,用一些图表梳理了LLM的技术要点,总结了GPT、LLaMa、PaLM系列模型各自的特点和局限,整理了一些训练、微调、评测数据集。 其中的图表画的很清晰。 论文地址:
Tweet media one
10
106
287
@Gorden_Sun
Gorden Sun
1 month
PuLID的Flux版本,人脸还原效果还挺不错。 Github:、 在线使用: 图1是原图,234是生成的
Tweet media one
Tweet media two
Tweet media three
Tweet media four
7
69
294
@Gorden_Sun
Gorden Sun
10 months
ChatGPT-3.5的免费平替 Poe的Mistral-Medium:英文强过GPT-3.5,32K上下文,基本没有安全限制。地址: Perplexity:联网,速度快。但上下文短。地址: Bard:即Gemini Pro,多模态,OCR强悍,超过GPT-4。中文一般。地址:
7
86
283
@Gorden_Sun
Gorden Sun
8 months
BRIA-RMBG:一键抠图,去除背景。 开源最佳,不可商用,效果还可以。 在线使用: 模型:
Tweet media one
6
92
271
@Gorden_Sun
Gorden Sun
10 months
@mranti 浏览器打开300M的PDF需要很长时间,下载了一份放到了谷歌云盘,可以在这里下载:
13
59
259
@Gorden_Sun
Gorden Sun
4 months
Doc2X:超强且免费的PDF解析工具 可以识别数学公式、表格、图片,公式的识别效果尤其优秀,图表的排版也很智能。 解析后支持导出为Markdown、LaTeX、Word文档、网页等格式。 每天有500页的免费额度。 使用地址: 下方图片是我解析阿里数学竞赛预赛题的效果。
Tweet media one
Tweet media two
5
84
267
@Gorden_Sun
Gorden Sun
1 year
冷知识,HeyGen是一家中国公司的产品,公司名叫诗云科技,在深圳。
Tweet media one
16
75
263
@Gorden_Sun
Gorden Sun
11 months
Perplexity Labs发布了自己训练的两个模型: pplx-7b-online(基于Mistral-7B) pplx-70b-online(基于LLaMa 2-70B) 最大特点是内置了联网功能,响应速度特别快,远远快过联网查询的GPT-4。 个人体验优于ChatGPT-3.5,如果不订阅GPT-4,是目前联网LLM的最佳选择。 地址:
Tweet media one
Tweet media two
9
86
258
@Gorden_Sun
Gorden Sun
7 months
Answer:使用2个3090就能训练70B模型 通过FSDP + QLoRA实现,完全开源。 官方介绍和教程: Github:
9
70
255
@Gorden_Sun
Gorden Sun
1 year
(持续更新)关于视频的AI,现在都有什么?盘点了一下我用过和了解的AI视频产品,排名有先后。 全文: 1/N 1、Wonder Studio 2、Runway GEN2 3、Stable Diffusion+ControlNet+EBsynth 4、Studio Paranormal 5、Stable Diffusion+Deforum 6、Stability AI视频 7、Luma AI
20
96
246
@Gorden_Sun
Gorden Sun
1 year
基于PDF或者Word文档做总结或者问答,现在已经不新鲜了,但是如果文档里有图片,提问的内容涉及图片怎么办? LangChain出了一份cookbook,讲解了该如何实现多模态的文档问答。用到了LLaVA、llama、向量数据库等。 教程地址:
Tweet media one
11
79
251
@Gorden_Sun
Gorden Sun
1 year
SMPLer-X:输入视频,即可提取视频中的动作。项目演示视频用其他模型复刻了原视频的动作,效果非常好。如果再消除原视频的人物,就实现了Wonders Studio。 项目地址: Github: 论文:
6
101
247
@Gorden_Sun
Gorden Sun
1 year
@oran_ge @Stefsunyanzi 使用so-vits-svc制作,先用足够多的人声训练,然后再基于一首歌进行推理,把人声的音色替换成孙燕姿。UP主很机智的没有选用周杰伦的原唱做推理,而是用女声翻唱版做推理,这样AI孙燕姿唱出来更好听。 so-vits-svc的Github出于法律风险,项目组现已停止维护。一套教程:
15
64
239
@Gorden_Sun
Gorden Sun
4 months
Fish Speech V1.2:可能是目前最好的中文开源TTS 效果逼真,能说绕口令,支持克隆语音,效果稳定,可用性比ChatTTS、GPT-SoVITS强太多了。 模型(开源不可商用): 在线使用:
1
49
250
@Gorden_Sun
Gorden Sun
29 days
Moshi :开源语音端到端模型 支持口语对话,且没有经过ASR和TTS的过程,而是直接语音生成语音。支持流式语音识别和文本转语音。 模型: Github: 在线体验:
Tweet media one
4
74
246
@Gorden_Sun
Gorden Sun
3 months
字节出了AI音乐产品:海绵音乐 效果非常好,人声没有杂音,完美支持中文,音乐也还算好听(间奏尤其不错),可以媲美Suno 官网:
11
87
248
@Gorden_Sun
Gorden Sun
11 months
UIDraw:在手机上画草图,自动生成H5页面 一个SwiftUI项目,使用GPT-4V实现写HTML界面。 需要自己打包项目,需要替换ContentView.swift里的OpenAI Key。 Github:
8
65
245
@Gorden_Sun
Gorden Sun
8 months
字节的MagicDance发布了源码,可以让任意角色按动作序列动起来。 Github: 项目地址:
7
73
237
@Gorden_Sun
Gorden Sun
8 months
Nendo AI:收费超贵但开源的AI音频平台 官网使用499美元/月起,但在Github上开源,需要24G以上的显存。 官网: Github: 功能包括: 1)AI支持的音频搜索,AI自动给音乐素材分类,支持文本搜索和找类似音频;
Tweet media one
Tweet media two
Tweet media three
6
71
239
@Gorden_Sun
Gorden Sun
8 months
LLM数据集综述 分析了LLM数据集的现状和趋势,对LLM数据集进行了整合和分类,包括: 预训练语料库(Pretrain) 指令微调数据集(Instruction Fine-tuning) 偏好数据集(Preference ) 评估数据集 NLP数据集 整理的数据集数量444个,大小超过774TB,覆盖8种语言。 论文:
Tweet media one
4
59
235
@Gorden_Sun
Gorden Sun
11 months
LLM推理过程可视化,这个项目太酷了 地址:
@BrendanBycroft
Brendan Bycroft
11 months
Project #2 : LLM Visualization So I created a web-page to visualize a small LLM, of the sort that's behind ChatGPT. Rendered in 3D, it shows all the steps to run a single token inference. (link in bio)
116
1K
6K
4
71
236
@Gorden_Sun
Gorden Sun
7 months
交个朋友。 小范围分享克隆视频的方法,包括免费方案和付费方案(价格比HeyGen低60%) 满足以下条件之一即可参加: 1)我关注的或关注我的5000粉以上账号,且不卖课(万一以后我想卖呢) 2)有技能可以交换 3)视频模型领域的开发者 感兴趣的朋友请私信。
35
44
236
@Gorden_Sun
Gorden Sun
1 year
Quivr:索引电脑上几乎所有类型的本地文件,然后通过LLM来进行问答,做“你的第二大脑”。 只支持Ubuntu系统,windows系统可以等微软官方的copilot,苹果系统可以用Rewind。 Quivr Github: Rewind未开源,在Mac版和手机版应用商店可以下载��
2
69
232
@Gorden_Sun
Gorden Sun
8 months
VSP-LLM:AI读唇语 输入嘴型视频,结合LLM来识别嘴型对应的文本内容。 Github: 论文:
8
71
231
@Gorden_Sun
Gorden Sun
2 months
我第一个阅读过百万的推。 提示词太长,超过了ALT的1000单词上限,拆成2部分放在了2个图片的ALT里。
Tweet media one
Tweet media two
@Gorden_Sun
Gorden Sun
2 months
FLUX出图效果太棒了,提示词写的详细些,效果尤其好。
Tweet media one
Tweet media two
Tweet media three
31
153
1K
5
50
232
@Gorden_Sun
Gorden Sun
4 months
TensorArt:在线AI绘画平台,功能全面且有特色,免费可用 支持SD3、腾讯混元、SDXL等几乎全部的开源模型,支持Layer Diffusion生成透明背景,支持高清放大图片,支持自动修复面部和手部异常。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
9
68
228
@Gorden_Sun
Gorden Sun
9 months
ChatGPT Source Watch:监控ChatGPT前端代码来推测新功能 这个项目太牛了,我估计OpenAI竞对都不一定能盯的这么紧。作者通过对比每个版本的ChatGPT前端代码(webpack),来推测ChatGPT的新功能。这几天新上线的@功能,最早就是这个项目提前爆出来的。 Github:
Tweet media one
6
70
219
@Gorden_Sun
Gorden Sun
9 months
苹果开源了MGIE:通过文字描述即可P图,支持多语言。 基于LLaVA实现,效果还可以。
Tweet media one
@WilliamWangNLP
William Wang
9 months
🤩Apple opensources MGIE! Now one can take random pictures w. iPhone & edit w. language! Guiding Instruction-based Image Editing via Multimodal Large Language Models #ICLR2024 spotlight: Apple repo Gradio
5
90
369
6
48
226
@Gorden_Sun
Gorden Sun
4 months
EvTexture:视频高清化 效果不错,已开源,后续会放出训练代码和训练数据集。 项目地址: Github:
4
46
225
@Gorden_Sun
Gorden Sun
5 months
谷歌开源了时间序列预测模型TimesFM的权重 时间序列预测在零售、金融、制造、医疗等领域广泛存在,TimesFM仅2亿参数,基于1000 亿个现实世界时间点的时间序列语料库进行训练,实现了目前的最佳效果。 Github: 模型:
Tweet media one
7
75
220
@Gorden_Sun
Gorden Sun
11 months
Prompt Engineering 完胜 Fine-tuning:通用(且强大)的LLM通过prompt即可超越精调的LLM 微软的一项研究,通过优化提示词,让GPT-4在医学领域完胜Med-PaLM 2(用医学数据精调的LLM) 这意味着,通用且强大的LLM,能胜任各个领域的任务,比普通但在指定领域精调的LLM更强 论文:
Tweet media one
4
61
213
@Gorden_Sun
Gorden Sun
7 months
海辛把她写的小说喂给了Claude 3 Opus,然后让Claude创作了一篇短篇小说,写的文字惊到我了。
Tweet media one
Tweet media two
13
42
207
@Gorden_Sun
Gorden Sun
8 months
被这个AI模型笑死了。 Goody-2:全世界最安全也最没用的LLM 不论你问什么问题,他总能告诉你这个问题有什么风险,从而拒绝回答。 地址:
Tweet media one
12
53
213
@Gorden_Sun
Gorden Sun
3 months
Aiuni:最佳图生3D来了?! 清北00后团队开发,产品效果非常好,细节比较到位,也能脑补出图片中没有展示出的内容。支持图片生成3D模型和图片生成3D场景(天空盒),适用于游戏和影视场景。下方视频是我用DALL·E生成图片,然后转成3D的效果。 官网:
7
68
215
@Gorden_Sun
Gorden Sun
9 months
Parakeet-TDT:超越Whisper的语音识别模型 英伟达和SunoAI研发的模型,是历史版本的进化版,官方宣称目前开源最佳。可商用。 在线体验: 模型地址: 官方博客:
4
77
209
@Gorden_Sun
Gorden Sun
4 months
The Prompt Report:提示词综述 项目由Learn Prompting社区主导,成员来自OpenAI、微软、斯坦福等机构。 长达76页的论文,分析了1500多篇论文,涵盖了每一种提示词技术。 项目地址: 论文:
Tweet media one
4
74
210
@Gorden_Sun
Gorden Sun
8 months
Pix2Text:开源的公式识别工具 可能是最好的开源模型,除了Mathpix商用模型,比其他的商用模型也不差。 普通人用免费版就够用,也提供了付费版本,错误率更低。 Github: 在线使用(每人每天可以免费识别 10000 个字符):
Tweet media one
2
68
209
@Gorden_Sun
Gorden Sun
7 months
MuseV:虚拟人视频的完整解决方案 基于SD,支持文生视频、图生视频、视频生视频,能保持角色一致,不限视频长度。 后续会发布MuseTalk来支持实时嘴型同步。 在线体验: Github: 论文后续发(阿里看看人家,先开源再发论文!)
4
63
209
@Gorden_Sun
Gorden Sun
9 months
茴香豆:服务于群聊的LLM 支持飞书、微信(有风险)、企业微信,相比之前类似的LLM,茴香豆能自动识别出群里的有效信息,自动回复有效问题,忽略闲聊信息。可以本地部署,也可以使用OpenAI API。 Github:
Tweet media one
10
66
203
@Gorden_Sun
Gorden Sun
4 months
StreamSpeech:同声传译 “一体化”无缝模型,同步执行语音识别、语音翻译和语音合成。 项目地址: Github:
Tweet media one
4
66
205
@Gorden_Sun
Gorden Sun
5 months
AI越狱提示词 包含OpenAI、Midjourney、LLaMA、Deepseek等主流模型的越狱提示词技巧,实测对Command R+有效。 Github:
Tweet media one
2
54
199
@Gorden_Sun
Gorden Sun
3 months
Cloudflare全栈工具包 前后端全部基于Cloudflare,适合免费、快速搭建网页应用,作者基于这套工具包搭建了应用: 代码文件比较多,只有Gemini能一次性读取,我打算试试让他指导建站 Github:
Tweet media one
1
58
201
@Gorden_Sun
Gorden Sun
2 months
MedTrinity-25M:医学多模态数据集 包含2500万张医学影像及详细注释,可用于训练医疗多模态大模型。 Github: 数据集:
Tweet media one
2
85
202
@Gorden_Sun
Gorden Sun
1 year
字节的两个AI视频项目,团队是同一拨人。 MagicEdit:输入文字即可编辑视频,包括修改风格、修改局部画面、视频混合、视频扩展。 项目地址: MagicAvatar:输入文本、视频、音频,生成带动作的虚拟角色。 项目地址: 视频介绍:
4
65
197
@Gorden_Sun
Gorden Sun
7 months
Make-Your-Anchor:能生成带手部动作的虚拟人 除了没有克隆语音,基本算是全套方案了。输入1分钟视频进行训练,可以合成带手部动作的虚拟人视频,支持嘴型同步,支持换脸。代码还没发布。 Github: 论文:
8
81
191
@Gorden_Sun
Gorden Sun
1 year
Suspicion-Agent:GPT-4利用“心智理论”玩德州扑克等不完美信息博弈,完胜其他算法,碾压人类新手玩家。 论文: Github:
Tweet media one
6
57
192
@Gorden_Sun
Gorden Sun
10 months
GPTs从简单到复杂可以划分为4种: 1)只通过文字限定角色和功能的GPTs 2)在1的基础上,附加知识库 3)调用标准OpenAPI的GPTs 4)调用自定义API的GPTs GPTs的潜力非常大,用第4种GPTs甚至可以实现独立的小应用。 这篇教程完整介绍了每种GPTs的创建流程:
Tweet media one
9
72
191
@Gorden_Sun
Gorden Sun
1 month
Loopy:字节的Emo 音频生成人物视频,匹配嘴型,有头部动作。 项目地址: 类似项目有: 闭源:Emo(最早)、VASA-1(最好)、Hedra(已经产品化)、HeyGen Expressive Photos(已经产品化) 开源:Hallo、AniTalker、EchoMimic、AniPortrait、InstructAvatar、V-Express
5
73
194
@Gorden_Sun
Gorden Sun
3 months
SEED-Story:能写图文故事的多模态模型 基于SEED-X,提供角色图片和故事要求,可以保持角色一致,完成整个故事的文字和配图。 Github:
Tweet media one
1
61
187
@Gorden_Sun
Gorden Sun
1 year
当之无愧是目前最强的AI创作PPT的应用,近期内置了AI生成图片的功能,用于PPT配图。 使用的是SDXL 1.0生成图片,并且提供了优化提示词的功能,输入主题即可自动完善提示词,生成的图片效果非常好。 免费额度400积分,至少可以生成5个PPT,每个人都应该试一试。
Tweet media one
2
59
182
@Gorden_Sun
Gorden Sun
7 months
AI资讯日报一周年了,分享一下这一年的数据。 写了365篇日报笔记,每篇笔记的阅读次数大概在200左右(好少),猜测跟Notion载体有关,但是不打算换,因为不必担心敏感内容,而且现在有Ask AI的功能,笔记就是知识库。 同期开始运营Twitter账号,一年时间15000的粉丝,此处感谢 @dotey @mranti
Tweet media one
Tweet media two
19
21
174
@Gorden_Sun
Gorden Sun
7 months
AIOS:有灵魂的操作系统 把LLM嵌入了操作系统,以LLM为大脑,旨在优化资源分配,促进跨智能体的上下文交换,实现智能体并发执行,为智能体提供工具调用。目前有的是架构设计和基本实现。 Github: 论文:
Tweet media one
11
68
177
@Gorden_Sun
Gorden Sun
10 months
这篇论文总结了减少LLM幻觉的32种方法,包括RAG、微调模型,提示词工程等。 论文:
Tweet media one
13
55
174
@Gorden_Sun
Gorden Sun
9 months
Khanmigo:从翻转课堂到无需课堂——Khanmigo使用体验 可汗学院在美国地区推出了基于GPT-4的AI助教:Khanmigo,作为曾经在教育行业工作过5年、依旧对教育保持热情的产品经理,我陆陆续续体验了10多天,分享一下自己的使用体验。 全文:
Tweet media one
Tweet media two
15
57
172
@Gorden_Sun
Gorden Sun
11 months
坏消息:OpenAI暂停了新用户订阅plus 好消息:免费用户可以用GPT-4 All-Tool模式,链接: 估计用不了多久就失效了。
Tweet media one
12
48
166
@Gorden_Sun
Gorden Sun
1 year
让任何人都能微调(Fine Tune)LLM的项目,带有完整且比较简单的UI界面,上传训练数据就能在线训练(按GPU类型和时长收费) 抱抱脸复制模板: Github开源地址:
Tweet media one
2
64
164
@Gorden_Sun
Gorden Sun
7 months
mPLUG-DocOwl:8B大小的多模态模型 没有使用OCR,也能识别图片和文档中的文字,是7B大小的开源最佳。 在线体验: Github:
Tweet media one
3
40
169