GenAI Weekly|第1期:1月22日-28日 大模型未来发展趋势:多模态

Bruce
2024-01-28 / 1 评论 / 17 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2024年01月28日,已超过113天没有更新,若内容或图片失效,请留言反馈。
AI摘要:在生成式人工智能蓬勃发展的一年中,大语言模型深深影响了各行各业。本期GenAI Weekly栏目将关注资讯热点、技术前沿、应用专栏和学习专区四大板块。资讯热点方面,OpenAI的CEO Sam Altman透露了OpenAI的未来发展方向;微信对话开放平台推出了“小微助手”对话机器人;谷歌Chrome浏览器引入了生成式AI功能;火山创想完成了百万级种子轮融资;联想发布了个人助理“小乐同学”;三星发布了AI手机Galaxy S24。技术前沿方面,OpenAI更新了5款新模型;谷歌推出了文生图巅峰之作Imagen 2模型;谷歌发布了AI视频生成模型Lumiere;旷视、国科大和华中大推出了多模态大模型Vary-toy;科大讯飞将发布星火认知大模型V3.5;UCLA等机构推出了多模态具身智能大模型MultiPLY。应用专栏方面,微软推出了免费AI工具“Reading Coach”;腾讯推出了AI设计平台AIDesign;ChatGPT灰度测试引入了@功能;哄女友的哄哄模拟器火爆00后、10后聚集QQ群。学习专区方面,推荐了《LangChain入门指南》、《大规模语言模型:从理论到实践》和Large Language Model Course。

在生成式人工智能蓬勃发展的一年中,大语言模型深深影响了各行各业。AI作为新的生产力,推倒了过去旧的一切而又重塑新的未来,每个人的工作学习模式都或多或少发生变化。

肉眼可见,OpenAI推出ChatGPT的一年多来,直到现在每天都有新的应用涌现,无数新闻资讯、模型性能榜单、产业研报、大咖新作、专家论断、视频教程扑面而来,但过度推送的信息绝不会带来深度思考后的对未来的掌控感,带给人们更多的可能是最初的焦虑、疑惑和对新的信息刺激渐渐失去兴趣后的麻木接受。

生成式人工智能是一轮新的机遇,可是应该如何抢占先机,至少不落后于时代呢?

要身处信息洪流不迷失,关键是要抓住少数揭示本质的技术应用,反映未来趋势的前沿资讯,其余信息皆为杂音。

所以,希望通过写作的方式督促自己关注时代的潮流趋势,保持独立判断和思考。以上就是 GenAI Weekly 栏目来源,暂定以下四大板块:

1. 资讯热点(InfoBuzz)

关注国内外生成式人工智能头部企业动态、商业化模式、行业发展趋势

2. 技术前沿(TechVerse)

关注文本、图像、语音、视频以及多模态内容生成最新技术

3. 应用专栏(AppliTech)

关注大语言模型在生活、办公、学习场景下的软硬件应用,优秀的应用会从产品的体验和理念角度进行更深的探索

4. 学习专区(LearnLink)

推荐一些不错的大语言模型入门学习资料

一、资讯热点(InfoBuzz)

1. Sam Altman谈OpenAI未来发展方向
OpenAI 的 CEO Sam Altman 在全球巡回演讲中透漏了 OpenAI 近期发展路线主要分两个阶段,2023 年的首要任务是推出更便宜、更快的 GPT-4,更长的上下文窗口等,2024 年重点是多模态。在与比尔盖茨的访谈节目中提出,未来的大模型与现在的GPT-4最大的区别在于,更强的推理能力多模态准确性自适应计算以及个性化定制
img

2. 微信对话开放平台宣布将推出“小微助手”对话机器人
微信AI团队升级微信对话开放平台,宣布将推出最新产品"小微助手",用户可通过对话的形式与PC端进行交互。"小微助手"是基于微信对话多年技术沉淀打造的桌面助手工具,提供了Json魔方、Base64工具、密码工具、大模型接入、圈子共享、时间戳、进制转换、技能问答、百科、股票、提醒、天气等多种功能。
image-20240128002406410

3. Chrome 浏览器最新版本正式引入生成式 AI 功能
谷歌 CEO Sundar Pichai 宣布谷歌 Chrome 浏览器的最新版本正式引入三大生成式 AI 功能,包括标签自动建议并创建标签组AI 生成自定义主题壁纸支持 Web 端页面利用大模型生成内容(发版时间为下个月)。启用方式:登录Chrome,进入“设置”,进入“实验性 AI”(Experimental AI)选项。
Chrome_Gen-AI

4. 火山创想近日完成百万级种子轮融资,打造AI口语私教
北京火山创想科技有限公司近日完成百万级种子轮融资。旗下产品SpeakGuru是一款基于AI大模型的英语口语应用,据介绍,该应用以接近真人般的对话体验、科学学习功能体系、游戏式的学习体系、沉浸式场景练习为产品特色。创始人陈灿表示,应用在没有大范围做市场推广的情况下已实现4000-5000元/日的收入,在大规模宣传推广后收益应该会按比例增长。据艾瑞预计,2023年成人英语市场规模达870亿元(不包括海外留学英语考培),维持10%+稳健增速,其中应试英语240亿元,实用英语630亿元
下载链接:https://speakguru.huoideas.com
小程序链接(可复制链接发送到微信聊天访问):\#小程序://SpeakGuru/8BhChihWPJZN1St
image-20240128004348105

5. 联想 Agent个人助理“小乐同学”3 个月后上线,支持自然语言交互
1月17日举行的联想拯救者及消费生态新品发布会上,联想公布了全新 AI 助手 —— 小乐同学。据介绍,联想的 AI 大模型战略采用端侧 + 云端混合式的 AI 大模型,除了 AI PC ,未来还将带来 AI 手机、AI 平板以及 AIoT。小乐同学支持“伴随态自然语言交互 UI”,可一键唤醒、翻译文档、制作 PPT 等,预计三个月后推出正式版。
img

6. 三星发布AI手机Galaxy S24,可同声翻译和智能搜索
三星公司在最新召开的发布会上正式发布了Galaxy S24系列手机,具备外语通话、同声翻译等多种人工智能功能,支持两种不同语言的实时通话双向语音翻译(基于完全离线的AI技术,确保隐私安全)。此外,还提供了“画圈搜索”(Circle to Search)功能,用户在安卓手机上选择想搜索的内容,用一个简单的手势,如在内容上画圈、突出显示、涂抹划线,点击内容确认,就可在谷歌中进行搜索。
img

二、技术前沿(TechVerse)

  1. OpenAI大动作:更新5款新模型,修复GPT-4变懒问题,加强代码生成能力,模型价格大幅下降
  2. 模型更新:
    gpt-4-0125-preview:改善模型「偷懒」情况,极大地提升了代码生成的能力;
    gpt-3.5-turbo-0125:输入价格下降50%,输出价格下降25%,性能升级;
    text-moderation-007:**新推出的最强性能审核模型;
    两个新一代embedding模型:
    text-embedding-3-small:体积更小效率更高,价格下降至原模型20%;
    text-embedding-3-large:性能相比之前模型大幅提升,高达3072维的嵌入向量,价格是小模型的6.5倍;
  • API后台更新,更好的API密钥管理
    可动态追踪每一个秘钥的使用情况。
    image_250
  1. 谷歌推出文生图巅峰之作Imagen 2模型

Imagen 2在文本理解和图像合成上表现出了极佳的性能,相比于Midjourney必须用复杂、专业的提示词,Imagen 2具有更高的易用性。此外,Imagen 2还具有无可比拟的图像质量和多功能性,用到了谷歌最先进的文本到图像扩散技术,生图质量极高、效果逼真,而且和用户的提示具有高度的一致性。谷歌已经Imagen 2下放到开发者平台Vertex AI,用户进行直观 工具自定义和部署。
Imagen_2_on_Vertex_AI_v2.max-2500x2500

3. 谷歌发布AI视频生成模型Lumiere

谷歌在arXiv发布文本到视频扩散模型Lumiere,可基于用户的自然语言提示、图像+提示生成长达5秒的视频,或者根据用户上传的单个参考图像,生成基于提示词的同风格视频,还允许用户通过自然语言指令生成一致的视频风格。用户可以指定特定区域使Lumiere对图像内容进行动画处理。
论文地址:https://arxiv.org/abs/2401.12945
体验地址:https://lumiere-video.github.io/
x5

4. Vary-toy,年轻人的第一个多模态大模型

旷视、国科大、华中大的研究人员共同提出多模态大模型Vary-toy,模型大小不到2B,GTX1080ti 8G的老显卡轻松运行。据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。
Vary-toy也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。
在线体验地址:https://varytoy.github.io/
image-20240128101745721
image-20240128101810893
image-20240128101825979

5. 科大讯飞星火大模型 V3.5 将于 1 月 30 日发布

科大讯飞在投资者互动平台称,公司将于1月30日14:00发布星火认知大模型V3.5。据悉,讯飞星火认知大模型V3.5基于全国产化算力底座“飞星一号”平台,目前已完成训练。相比2023年10月24日发布的讯飞星火V3.0,讯飞星火认知大模型V3.5在逻辑推理、文本生成、数学答题及小样本学习能力均实现大幅提升。
image-20240128110625614

6. UCLA等机构推出多模态具身智能大模型MultiPLY,可知冷知热、辨音识物
来自UMass Amherst、UCLA和MIT-IBM Watson AI Lab研究人员,推出了全新的具身智能大模型MultiPLY。这是一种多感官呈现的LLM,可以通过部署由LLM驱动的智能体与3D环境进行交互,从而对以对象为中心的多感官表示进行编码,包括视觉、音频、触觉和温度信息。MultiPLY呈现了大模型多感官能力,无缝地连接了语言、动作和感知!
640

三、应用专栏(AppliTech)

1. 微软推出免费AI工具“Reading Coach”,提高学生阅读能力
微软官方宣布推出AI驱动的学习工具Rading Coach,为学习者提供个性化的阅读练习,任何拥有 Microsoft 账户的人都可以免费使用。据介绍,学习者可以选择故事的主人公、设定,并在阅读时提供改变情节的选择。阅读教练将这些输入与学习者选择的阅读水平结合起来,并且随着时间的推移,根据他们读错的单词动态创建个性化故事,以保持学生的参与度并让他们掌控学习。
Reading Coach官网https://coach.microsoft.com/
image-202401281113376102. 腾讯AIDesign设计平台

AIDesign是腾讯推出的一个利用人工智能技术生成logo的智能设计平台,支持logo的智能设计、调优、VI生成、下载。AIDesign使用简单,仅3步(输入品牌名、选择关键词、选择偏好色彩)即可获得多种logo方案。
image-20240128111940540

3. ChatGPT灰度测试@功能,不同GPTs共享上下文

部分(灰度)用户已经收到提示:在对话中@任意GPT商店里的GPTs,就像在群聊中@一个人。这还意味着不同的GPTs之间从此可以共享上下文。一位网友使用论文解读工具Ai PDF和编码工具Grimoire实现读论文+复现代码一条龙,首先用Ai PDF根据论文总结技术实现方法,然后让Grimoire根据方法,直接编写出实现技术的代码。
image-20240128113433059

4. 哄女友的哄哄模拟器火爆00后、10后聚集QQ群
和女朋友的一次吵架,让这位开发者做出了一个24小时内用户达60万的AI应用,直接引爆了00后和10后聚集的QQ群!这个游戏里,你需要想方设法哄好自己的虚拟女友/男友,以获得ta的原谅。回应究竟能获得多少原谅值模型会给进行打分,达到原谅值后可获胜。
体验网址:https://hong.greatdk.com/
image-20240128115338811

四、学习专区(LearnLink)

  1. 《LangChain入门指南》

    LangChain是一个集成框架,为开发者提供了一系列的工具和组件,使得与语言模型中各种数据(如Google Analytics、Stripe、SQL、PDF、CSV等)的连接、语言模型的应用和优化变得简单直接。LangChain的简洁性让它脱颖而出。开发者只需要写几行代码,就能运行一个大型LLM程序,甚至快速构建一个响应式的机器人。这种简洁性意味着,无论是对于有经验的开发者还是初入此领域的新手,LangChain都能为他们进入LLM应用开发的世界铺平道路。
    《LangChain入门指南》

  2. 《大规模语言模型:从理论到实践》

    本书详细介绍了构建大语言模型的四个主要阶段:预训练、有监督微调、奖励建模和强化学习。每个阶段都有算法、代码、数据、难点及实践经验的详细讨论。本书旨在为对大语言模型感兴趣的读者提供入门指南,也可作为高年级本科生和研究生自然语言处理相关课程的补充教材。
    在线阅读:https://intro-llm.github.io/(附PPT)
    11bd715d69754cf3978f4ef3d94154bd

  3. Large Language Model Course
    大语言模型教程分为以下三部分:

    1. 🧩 LLM基础知识涵盖数学、Python和神经网络的基本知识。
    2. 🧑‍🔬 LLM科学家专注于使用最新技术构建最佳的LLM模型。
    3. 👷 LLM工程师专注于创建基于LLM的应用程序并进行部署。
      课程网址:https://github.com/mlabonne/llm-course
      roadmap_fundamentals

个人感悟

在模型层面,多模态大模型是未来趋势。无论是OpenAI还是其国内外竞争对手,模型的研发都在朝多模态、提升质量、降低成本方向发展。谷歌全面对标OpenAI的文本、图像生成,同时涉足视频生成领域。UCLA等机构甚至推出多模态具身智能大模型MultiPLY,可知冷知热、辨音识物,在智能家居领域的应用令人充满期待。

大模型日新月异的同时,小规模模型的发展也令人瞩目。大小不到2B的Vary-toy模型具有的多模态能力可应用于文档OCR识别、视觉定位、图像描述、视觉问答等多个领域。

在硬件应用层面,PC、手机等硬件的发展充满活力。在大模型重塑互联网的潮流中,AIPC、手机端侧大模型、教育类产品与AI结合的速度与程度有目共睹。国内外的手机、电脑厂商发布会上都在卷AI概念,三星的Galaxy S24、华为的Magic OS魔法大模型、联想惠普的AIPC、微软的Copilot,然而这些都仅仅是与AI结合的初级形态,未来的发展方向和结合程度会极大影响人们的办公和生活。

在软件应用和生态层面,教育、生活领域的软件应用层出不穷。AI具有近乎无限的知识,与教育的结合有天然的优势,AI+教育的赛道具有光明的前景。但这条赛道肯定很卷,只有精准洞察需求、找到合理的商业变现模式,才能在激烈竞争中杀出重围。此外,AI和生活的结合常常出爆款,体现出的人文关怀和情绪价值需求拥有极为广泛的受众。不过此类产品多数只是昙花一现,用户往往只是跟风体验,留存率很难保证。

文摘

  1. 今天的AI技术本质上是一种生产力工具,问题解决能力越强的人越能发挥它的表面价值(图形界面)、中间价值(API调用)和底层价值(微调、链接互联网、垂域知识库等)。
    来源:https://mp.weixin.qq.com/s/yJtJWBsWC7aaJatpF4bcPg
  2. 一家公司需要多少工程师?这与软件功能的数量有关,与软件用户的数量无关。如果软件要添加更多功能,就需要更多工程师。如果软件功能单一,但是规模很大,甚至有几亿用户,事实上并不需要很多工程师。
    来源:https://news.ycombinator.com/item?id=34567237

Reference

[1] Sam Altman谈OpenAI未来发展方向 https://mp.weixin.qq.com/s/LubGkUZZ1E1eUGOe1PTUkw
[2] 微信对话开放平台宣布将推出“小微助手”对话机器人 https://www.aihub.cn/news/wechat-released-xiaowei-assistant/
[3] Chrome 浏览器最新版本正式引入生成式 AI 功能 https://blog.google/products/chrome/google-chrome-generative-ai-features-january-2024/#help-me-write
[4] 打造AI口语私教,火山创想近日完成百万级种子轮融资 https://36kr.com/p/2619428103362693
[5] 联想 Agent个人助理“小乐同学”3 个月后上线,支持自然语言交互 https://www.cet.com.cn/wzsy/cyzx/10007924.shtml
[6] 三星发布AI手机Galaxy S24,可同声翻译和智能搜索https://www.chinanews.com.cn/cj/2024/01-26/10153240.shtml
[7] OpenAI大动作:更新5款新模型,修复GPT-4变懒问题,加强代码生成能力,模型价格大幅下降 https://mp.weixin.qq.com/s/6deJkhCniZPCMdZdy1T2Yg
[8] 谷歌推出文生图巅峰之作Imagen 2模型 https://school.niutrans.com/qualityArticleInfo?id=68
[9] 谷歌发布AI视频生成模型Lumiere https://www.thepaper.cn/newsDetail_forward_26125398
[10] Vary-toy,年轻人的第一个多模态大模型 https://mp.weixin.qq.com/s/vhGsHiY2ei5nLEAmxCmwng
[11] 科大讯飞星火大模型 V3.5 将于 1 月 30 日发布 http://www.ah.xinhuanet.com/20240123/f8050c1c024c4ec8a11e9859b800058f/c.html
[12] UCLA等机构推出多模态具身智能大模型MultiPLY,可知冷知热、辨音识物 https://mp.weixin.qq.com/s/37_SuI4O2CwTlSVDki5CjA
[13] 微软推出免费AI工具“Reading Coach”,提高学生阅读能力 https://www.elecfans.com/d/2372241.html
[14] 腾讯AIDesign设计平台 https://ailogo.qq.com/question.html
[15] ChatGPT灰度测试@功能,不同GPTs共享上下文 https://mp.weixin.qq.com/s/mnvuteSe8cC41lAqU4lVzA
[16] 哄女友的哄哄模拟器火爆00后、10后聚集QQ群 https://mp.weixin.qq.com/s/RAy9USdZwl1Ko5LgwQpzAg
[17] 《LangChain入门指南》https://mp.weixin.qq.com/s/wI9lmccOeKNJPt7nZqX7sw
[18] 《大规模语言模型:从理论到实践》https://mp.weixin.qq.com/s/M99-rlF8A0C5H5dzwCCB7w
[19] Large Language Model Course https://github.com/mlabonne/llm-course

2

评论 (1)

取消
  1. 头像
    Bruce
    Linux · Google Chrome · 香港 特别行政区

    [...]欢迎关注GenAI Weekly!生成式人工智能的每周简报~https://wanglin.blog/index.php/archives/205/[...]

    回复