Apply for Qwen Group

秦洋 / Bob

Agentic Engineering Multimodality AIGC

"人生就是一个字:Passion!!!"

01
澳门科技大学
理学硕士 · 应用数学与数据科学
02
佛山大学
工学学士 · 数据科学与大数据技术
03
趣丸科技
多模态 · Agent · 高级算法工程师
04
光魔科技
AIGC · 算法工程师
SCROLL
工作经历 01

光魔科技(深圳)有限公司

算法工程师 · AIGC 全流程研发

白日梦 AI

参与海内外 AI 长视频生成产品全流程算法研发,覆盖 文本 → 图像 → 视频 全链路,深入理解 AIGC 业务流与算法落地。

大模型效果与成本优化

重构故事转剧本 LLM;优化影视内容提示词工程;调用成本降低 40%;FLUX 提示词扩写优化。

人脸一致性 / 换脸

从零构建人脸处理模块:人物重定位 + InstantID / PuLID 一致性 + 人脸融合,达到消费级图像质量。

区域提示词控制

基于 Kolors 实现 Attention 层区域隔离 + IPAdapter,实现生成内容与人物的区域控制。

软硬结合的区域控制

Inpainting + Pose + IPAdapter 方案,缓解区域间干扰,减少人物动作畸形。

人物对口型

Audio2Lips + FaceDriven 融合方案,短耗时低开销,提升人脸动态效果与对口型精准度。

图生视频 / 动作驱动

开源 DynamiCrafter / CogVideoX / Wan2.1;闭源 Pika / RunWay / MiniMax API 对接与优化。

工作经历 02

广州趣丸网络科技有限公司

All Voice Lab 事业部 · 高级算法工程师

多模态视频理解与 内容感知

视频字幕 OCR

优化视频字幕 OCR 系统架构与难样本训练,效果 98% / 性能提升 85%;微调 VLM-based OCR 达 99%+ 准确率、80IPS;构建含 3 类指标 15 个模型的 Benchmark。

多模态说话人分割

V1: 3D-Speaker + 唇动检测 + 人脸追踪 + 改进聚类,相对纯声纹提升 10 个点
V2: 多模态大模型匹配(ASR + OCR + 多轮对话 + 全局角色管理)。

多模态影视数据标注

基于 Gemini 为长视频(2h+)做细粒度多维度数据标注,覆盖 对话、场景、镜头、角色 等类别,支撑下游模型训练。

当前探索

Agent 系统设计与 工程化

Agent 使用优化

  • 分层分级、自然学习与衰退的 记忆系统,节省 80% 记忆 token 加载
  • 优化 compact 机制,提升长任务可持续性与上下文知识沉淀
  • 构建个性化 skill,持续优化 Agent 行为风格与用户画像

AutoResearch & Node-based

  • 基于 AutoResearch 范式优化 OCR 模型推理速度,沉淀算法场景经验
  • 牵头完成团队原子能力的 Node 化与 Skill 化
  • 对内部画布流产品进行 Agent 化改造

期待与 Qwen 团队一起探索智能创作的边界