Apply for Qwen Group

秦洋 / Bob

Agentic Engineering Multimodality AIGC

"人生就是一个字：Passion!!!"

01

澳门科技大学

理学硕士 · 应用数学与数据科学

02

佛山大学

工学学士 · 数据科学与大数据技术

03

趣丸科技

多模态 · Agent · 高级算法工程师

04

光魔科技

AIGC · 算法工程师

SCROLL

工作经历 01

光

光魔科技（深圳）有限公司

算法工程师 · AIGC 全流程研发

白日梦 AI

参与海内外 AI 长视频生成产品全流程算法研发，覆盖文本 → 图像 → 视频全链路，深入理解 AIGC 业务流与算法落地。

大模型效果与成本优化

重构故事转剧本 LLM；优化影视内容提示词工程；调用成本降低 40%；FLUX 提示词扩写优化。

人脸一致性 / 换脸

从零构建人脸处理模块：人物重定位 + InstantID / PuLID 一致性 + 人脸融合，达到消费级图像质量。

区域提示词控制

基于 Kolors 实现 Attention 层区域隔离 + IPAdapter，实现生成内容与人物的区域控制。

软硬结合的区域控制

Inpainting + Pose + IPAdapter 方案，缓解区域间干扰，减少人物动作畸形。

人物对口型

Audio2Lips + FaceDriven 融合方案，短耗时低开销，提升人脸动态效果与对口型精准度。

图生视频 / 动作驱动

开源 DynamiCrafter / CogVideoX / Wan2.1；闭源 Pika / RunWay / MiniMax API 对接与优化。

工作经历 02

趣

广州趣丸网络科技有限公司

All Voice Lab 事业部 · 高级算法工程师

多模态视频理解与内容感知

视频字幕 OCR

优化视频字幕 OCR 系统架构与难样本训练，效果 98% / 性能提升 85%；微调 VLM-based OCR 达 99%+ 准确率、80IPS；构建含 3 类指标 15 个模型的 Benchmark。

多模态说话人分割

V1: 3D-Speaker + 唇动检测 + 人脸追踪 + 改进聚类，相对纯声纹提升 10 个点；
V2: 多模态大模型匹配（ASR + OCR + 多轮对话 + 全局角色管理）。

多模态影视数据标注

基于 Gemini 为长视频（2h+）做细粒度多维度数据标注，覆盖对话、场景、镜头、角色等类别，支撑下游模型训练。

当前探索

Agent 系统设计与工程化

Agent 使用优化

分层分级、自然学习与衰退的记忆系统，节省 80% 记忆 token 加载
优化 compact 机制，提升长任务可持续性与上下文知识沉淀
构建个性化 skill，持续优化 Agent 行为风格与用户画像

AutoResearch & Node-based

基于 AutoResearch 范式优化 OCR 模型推理速度，沉淀算法场景经验
牵头完成团队原子能力的 Node 化与 Skill 化
对内部画布流产品进行 Agent 化改造

期待与 Qwen 团队一起探索智能创作的边界