- Telegram Web

Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web

😅 🤌

only at stanford

736 views07:04

With many 🧩 dropping recently, a more complete picture is emerging of LLMs not as a chatbot, but the kernel process of a new Operating System. E.g. today it orchestrates:

- Input & Output across modalities (text, audio, vision)
- Code interpreter, ability to write & run programs
- Browser / internet access
- Embeddings database for files and internal memory storage & retrieval

A lot of computing concepts carry over. Currently we have single-threaded execution running at ~10Hz (tok/s) and enjoy looking at the assembly-level execution traces stream by. Concepts from computer security carry over, with attacks, defenses and emerging vulnerabilities.

I also like the nearest neighbor analogy of "Operating System" because the industry is starting to shape up similar:
Windows, OS X, and Linux <-> GPT, PaLM, Claude, and Llama/Mistral(?:)).
An OS comes with default apps but has an app store.
Most apps can be adapted to multiple platforms.

TLDR looking at LLMs as chatbots is the same as looking at early computers as calculators. We're seeing an emergence of a whole new computing paradigm, and it is very early.

https://x.com/karpathy/status/1707437820045062561?s=46

718 viewsedited 06:17

اینجا موافق هستین دوباره فعال شه و بیشتر درباره‌ی NLP حرف بزنیم؟

Anonymous Poll

61 voters244 views22:26

عصای دست ما: spaCy

من بارها درباره‌ی تفاوت ابزارهایی که تو صنعت استفاده میشن با ابزارهایی که تو شبکه‌های اجتماعی ترند میشن، نوشتم. تفاوت اصلیشون در اینکه، ابزارهایی که ترند میشن شاید واقعا Cool باشن و خیلی از کارهارو ساده‌تر کنن ولی پیچیدگی‌های جدیدی رو هم با خودشون به همراه دارن که ممکنه تو طولانی مدت کار رو از جهات مختلفی سخت‌تر کنه.

یک نمونه از این ابزارها LangChain هست. در واقع LangChain با وجود قابلیت‌های خوبی که داره ولی بسیار آشفته توسعه داده شده. نسخه‌های جدید به سرعت به روز میشن و با هربار به روز رسانی به نسخه‌ی جدیدتر، چیزهای زیادی رو باید تغییر داد که مشکلات و دشواری‌های خودش رو داره.

در مقابل محصولاتی مشابه spaCy رو داریم که سال‌هاست تو پروژه‌های مختلف پردازش زبان، در صنعت بصورت جدی استفاده میشن و ابزارهایی ارایه میدن که تا حد زیادی Bullet Proof هستن.

سعی می‌کنم مطالب کوتاه و سریعی با هشتگ #spacy منتشر کنم تا شما رو بیشتر با این ابزاری که عصای دست بیشتر ما #nlp کارهاست آشنا کنم.

https://spacy.io

spaCy · Industrial-strength Natural Language Processing in Python

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

292 viewsedited 09:20

با ارسال هر متنی به #spacy شما یک doc ایجاد می‌کنین.

حالا شما به تک تک کلمات این جمله دسترسی دارین و می‌تونین صدها تحلیل مختلف رو روی این کلمات انجام بدین.

برای مثل درخت دستور وابستگی کلمات رو رسم کنین. درباره ی اینکه این درخت دستور وابستگی چه کاربردهایی می‌تونه داشته باشه، مفصل‌تر صحبت می‌کنیم.

277 viewsedited 09:52

266 views09:52

تو این مدتی که این کانال فعالیتش کمتر شده بود، طبیعتا دنیای NLP دست از کار نکشیده بود.
کارپاتی یکی از بهترین آموزش‌هاش رو منتشر کرد که کمک می‌کنه به یه درک عمیق و خوب از مفهوم Tokenization برسیم. توصیه می‌کنم این دو ساعت رو از دست ندین.

https://www.youtube.com/watch?v=zduSFxRajkE&t=6433s

Let's build the GPT Tokenizer

The Tokenizer is a necessary and pervasive component of Large Language Models (LLMs), where it translates between strings and tokens (text chunks). Tokenizers are a completely separate stage of the LLM pipeline: they have their own training sets, training…

258 views07:01

حالا که بحث یادگیری #spacy و آشنایی بیشتر باهاش رو قراره پیش ببریم، پیشنهاد می‌کنم خودتون دست پیش بگیرین و نگاهی به این سری آموزشی خفن و ساده بیاندازین:

https://course.spacy.io/en

Advanced NLP with spaCy

Advanced NLP with spaCy · A free online course

spaCy is a modern Python library for industrial-strength Natural Language Processing. In this free and interactive online course, you'll learn how to use spaCy to build advanced natural language understanding systems, using both rule-based and machine learning…

286 views15:47

یکی از ویژگی‌های جالب و پرکاربرد #spacy ابزار Span هست.

با این ابزار می‌تونین دسته‌بندی‌های دلخواه به بخش‌های مختلفی از متن اختصاص بدید.

یکی از کاربردهایی که داره برای مواقعی هست که با ابزارهای مختلف، بخش‌های مختلف متنی که در اختیار دارین رو دسته‌بندی می‌کنین و همه متادیتای بدست اومده رو داخل خود همون متن ذخیره می‌کنین! تمیز و شیک.

355 viewsedited 16:10

نسخه‌ی بهار از کورس شناخته شده‌ی CS224N دانشگاه استنفورد، مدتی هست که معرفی شده:

https://web.stanford.edu/class/cs224n

قبلا هم بارها این کورس رو معرفی کردم، بسیار کورس خوبیه و مرتب با موضوعات و مفاهیم جدیدی که تو صنعت و دانشگاه منتشر میشن، به روز میشه.

#NLP

323 views13:51

مستند کوتاه، جذاب و البته تبلیغاتی برای آشنایی با داستان PyTorch

https://www.youtube.com/watch?v=rgP_LBtaUEc

Official PyTorch Documentary: Powering the AI Revolution

This film unveils the authentic narrative of PyTorch’s inception, attributing its existence to a dedicated group of unsung heroes driving technological innovation.

The documentary shares the strength of the PyTorch community, resonating with our communities…

273 viewsedited 20:04

گفتگوی جادی با امیر عبدی، دانشمند مدل‌های زبانی بزرگ در مایکروسافت

https://youtu.be/Gd4qK05CfE8

رادیوجادی ۱۷۱ - زندگی، مایکروسافت و مدل‌های زبانی بزرگ؛ گپی با امیر عبدی

امیر عبدی در مایکروسافت دانشمند کاربردی (اپلاید ساینتیست) است و روی مدل‌های زبانی بزرگ کار می‌کنه. در هفته‌های قبل چند باری با هم ایمیل بازی داشتیم و فکر کردم خوبه باهاش گپی عمومی هم بزنم تا شما هم در جریان محتوای بحث ها باشین. امیر خوش صحبت است و تجربه وسیعی…

798 views15:51

برای اولین بار!‌ قدرتمندترین مدل زبانی دنیا، یه مدل متن بازه!

- Open Source AI Is the Path Forward

- Llama 3.1 - 405B, 70B & 8B with multilinguality and long context

- Model Card

241 views17:49

Media is too big

VIEW IN TELEGRAM

جستجو نیاز به بازآفرینی دارد؛ آیا رقیب جدیدی برای گوگل وارد بازی شده است؟

200 viewsedited 21:07

با همین چند خط کد و بدون نیاز به openai یه سیستم RAG روی لپ‌تاپ شخصیتون راه بیاندازین

استفاده از RAG به قدری متداول شده که راه انداختن یه llm روی لپ‌تاپ شخصی و سوال و جواب کردن راجع به محتویات فایل‌ها راحت‌تر از همیشه است!
قدم اول اینکه ollama رو نصب و مدل مورد علاقتون رو دانلود کنید:


ollama run phi3

حالا با همین چند خط می‌تونین شروع به حرف زدن با فایل‌ یا فایل‌های مدنظرتون کنین:


from llama_index.core import SimpleDirectoryReader
from llama_index.core import PromptTemplate
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings
from llama_index.core import VectorStoreIndex
from llama_index.llms.ollama import Ollama

loader = SimpleDirectoryReader(input_files=['behave.pdf'])

docs = loader.load_data()

embed_model = HuggingFaceEmbedding(
    model_name="Snowflake/snowflake-arctic-embed-m",
    trust_remote_code=True
)

Settings.embed_model = embed_model

index = VectorStoreIndex.from_documents(docs)

llm = Ollama(model="phi3", request_timeout=120.0)

Settings.llm = llm 
query_engine = index.as_query_engine(streaming=True, similarity_top_k=4)


qa_prompt_tmpl_str = (
            "Context information is below.\n"
            "---------------------\n"
            "{context_str}\n"
            "---------------------\n"
            "Given the context information above I want you to think step by step to answer the query in a crisp manner, incase case you don't know the answer say 'I don't know!'.\n"
            "Query: {query_str}\n"
            "Answer: "
            )


qa_prompt_tmpl = PromptTemplate(qa_prompt_tmpl_str)
query_engine.update_prompts({"response_synthesizer:text_qa_template": qa_prompt_tmpl})

response = query_engine.query('What is The opposite of love?')

print(response)

البته که قطعا این صرفا فقط یه مثال ساده است که من از این توییت کپی کردم تا اگر هنوز وارد این دنیا نشدین، سریع‌تر وارد شین و تست کنینش؛ وگرنه به پروداکشن‌ بردن همین سیستم پیچیدگی‌های خاص خودش رو داره که شاید سخت‌ترین بخشش ارزیابی و صحت‌سنجی جواب‌هاییکه دریافت می‌کنیم.

238 viewsedited 07:02

با همین چند خط کد و بدون نیاز به openai یه سیستم RAG روی لپ‌تاپ شخصیتون راه بیاندازین استفاده از RAG به قدری متداول شده که راه انداختن یه llm روی لپ‌تاپ شخصی و سوال و جواب کردن راجع به محتویات فایل‌ها راحت‌تر از همیشه است! قدم اول اینکه ollama رو نصب و مدل…

Please open Telegram to view this post

VIEW IN TELEGRAM

263 viewsedited 07:11

Bag of Words pinned «با همین چند خط کد و بدون نیاز به openai یه سیستم RAG روی لپ‌تاپ شخصیتون راه بیاندازین استفاده از RAG به قدری متداول شده که راه انداختن یه llm روی لپ‌تاپ شخصی و سوال و جواب کردن راجع به محتویات فایل‌ها راحت‌تر از همیشه است! قدم اول اینکه ollama رو نصب و مدل…»

19:52

The knowledge distillation metagame is getting out of hand!

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma

193 viewsedited 06:44

2024/11/03 13:50:27
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>